文章预览
关注公众号,发现CV技术之美 本篇分享论文 IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities ,冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力! 论文链接:https://www.arxiv.org/abs/2408.12902 模型和代码:https://github.com/360CVGroup/Inner-Adaptor-Architecture 摘要 当前广泛流行的基于LLaVA结构的多模态大语言模型(LMM: Large Multimodal Model)在视觉任务上表现出色,然而因为训练中需要对内嵌的语言模型进行微调,常常会显著削弱其在自然语言任务(NLP)上的能力,具体来说,模型对文本的整体理解能力会减弱,而且在回答问题时给出的信息也不够详细。 为了防止这种性能退化,一个行之有效的办法是在扩展模型的多模态能力时,不改变语言模型的原始参数。不过,先前像Flanmingo和BLIP2这样的尝试,并没
………………………………