专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

360提出冻结语言模型训练LMM新范式,无损获取多模态理解与Grounding能力

PaperWeekly  · 公众号  · 科研  · 2024-09-01 23:57

文章预览

©作者 | 谢春宇,王斌 单位 | 360人工智能研究院 研究方向 | 多模态大模型 摘要 当前广泛流行的基于 LLaVA 结构的多模态大语言模型(LMM: Large Multimodal Model)在视觉任务上表现出色,然而因为训练中需要对内嵌的语言模型进行微调,常常会显著削弱其在自然语言任务(NLP)上的能力,具体来说,模型对文本的整体理解能力会减弱,而且在回答问题时给出的信息也不够详细。 为了防止这种性能退化,一个行之有效的办法是在扩展模型的多模态能力时,不改变语言模型的原始参数。不过,先前像 Flamingo 和BLIP2 这样的尝试,并没有达到预期的效果。 本文受到图像生成领域中的 ControlNet 思路的启发,在保持语言模型不变的基础上,创新性地加入了内部适配器结构(IAA)。这一策略不仅保持了模型在自然语言处理(NLP)方面的原有能力,同时还显著提升了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览