专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

冻结语言模型训练LMM新范式，360提出IAA，使语言模型无损获取多模态理解与Grounding能力！

我爱计算机视觉 · 公众号 · · 2024-08-29 12:49

文章预览

关注公众号，发现CV技术之美本篇分享论文 IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities ，冻结语言模型训练LMM新范式，360提出IAA，使语言模型无损获取多模态理解与Grounding能力！论文链接：https://www.arxiv.org/abs/2408.12902 模型和代码：https://github.com/360CVGroup/Inner-Adaptor-Architecture 摘要当前广泛流行的基于LLaVA结构的多模态大语言模型（LMM: Large Multimodal Model）在视觉任务上表现出色，然而因为训练中需要对内嵌的语言模型进行微调，常常会显著削弱其在自然语言任务（NLP）上的能力，具体来说，模型对文本的整体理解能力会减弱，而且在回答问题时给出的信息也不够详细。为了防止这种性能退化，一个行之有效的办法是在扩展模型的多模态能力时，不改变语言模型的原始参数。不过，先前像Flanmingo和BLIP2这样的尝试，并没 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

掌上长春 · 吉林省首家！在美国纳斯达克上市

2 天前

掌上长春 · 吉林省首家！在美国纳斯达克上市

2 天前

掌上长春 · 吉林大学传来好消息

3 天前

掌上长春 · 吉林大学传来好消息

3 天前

新机器视觉 · 总结90条写Python程序的建议

3 天前

水木先生说 · 48岁女神公布恋情引热议：“美女是有什么恋丑癖吗？？”

7 月前

有新Newin · 速递｜捕捉 AI 时代 IP 价值！a16z 联手 K11 郑志刚投资了一位欧巴，也是韩国最大区块链基金 Hashed 合伙人

4 月前