专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !

集智书童  · 公众号  ·  · 2024-08-04 09:00

文章预览

备注好友: 方向-学校/公司-姓名/昵称 【AIGC 先锋科技】交流群 浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 ! 现有的大型视觉-语言模型(LVLM)主要通过将视觉编码器的图像特征与大型语言模型(LLM)对齐,以利用它们卓越的文本生成能力。然而,视觉编码器与语言模型之间的规模差异可能导致LLM在多模态理解中占据主导地位。 这种LVLM中的不平衡可能导致产生幻觉的实例。 具体来说,LVLM可能在没有视觉输入的情况下生成一致的描述,这表明某些输出仅受上下文文本的影响。 作者将这种现象称为“文本惯性”。为了解决这个问题,作者引入了一种无需训练的算法,以在图像理解和语言推理之间找到一个平衡点。具体而言,作者适应性地调整并增强分配给图像标记的注意力权重,从而赋予视觉元素更大的重要性。 同时,作者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览