专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
今天看啥  ›  专栏  ›  我爱计算机视觉

冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力!

我爱计算机视觉  · 公众号  ·  · 2024-08-29 12:49

文章预览

关注公众号,发现CV技术之美 本篇分享论文 IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities ,冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力! 论文链接:https://www.arxiv.org/abs/2408.12902 模型和代码:https://github.com/360CVGroup/Inner-Adaptor-Architecture 摘要 当前广泛流行的基于LLaVA结构的多模态大语言模型(LMM: Large Multimodal Model)在视觉任务上表现出色,然而因为训练中需要对内嵌的语言模型进行微调,常常会显著削弱其在自然语言任务(NLP)上的能力,具体来说,模型对文本的整体理解能力会减弱,而且在回答问题时给出的信息也不够详细。 为了防止这种性能退化,一个行之有效的办法是在扩展模型的多模态能力时,不改变语言模型的原始参数。不过,先前像Flanmingo和BLIP2这样的尝试,并没 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览