专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
今天看啥  ›  专栏  ›  FightingCV

大型多模态模型中新出现的像素级语义理解,没有语义理解监督

FightingCV  · 公众号  ·  · 2024-11-19 09:00

文章预览

摘要 当前大型多模态模型 (LMM) 在语义理解方面面临挑战,这要求模型将语言成分与视觉实体相关联。 与使用额外语义理解监督微调 LMM 的常见做法相反,我们发现语义理解能力实际上可以在  没有  明确语义理解监督的情况下,在训练的 LMM 中出现。 为了揭示这种新出现的语义理解,我们引入了一种“ 注意和分割 ”方法,该方法利用来自标准 LMM 的注意力图来执行像素级分割。 此外,为了增强语义理解能力,我们提出了  DiffLMM ,这是一种利用基于扩散的视觉编码器 (而不是标准 CLIP 视觉编码器) 的 LMM,并使用相同的弱监督进行训练。 我们的方法不受语义理解特定监督数据的偏差和有限规模的约束,因此具有更好的泛化性和可扩展性。 与分别使用语义理解 LMM 和通用 LMM 相比,我们在语义理解特定和通用视觉问答基准测试中都取得了有竞争力 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览