文章预览
摘要 当前大型多模态模型 (LMM) 在语义理解方面面临挑战,这要求模型将语言成分与视觉实体相关联。 与使用额外语义理解监督微调 LMM 的常见做法相反,我们发现语义理解能力实际上可以在 没有 明确语义理解监督的情况下,在训练的 LMM 中出现。 为了揭示这种新出现的语义理解,我们引入了一种“ 注意和分割 ”方法,该方法利用来自标准 LMM 的注意力图来执行像素级分割。 此外,为了增强语义理解能力,我们提出了 DiffLMM ,这是一种利用基于扩散的视觉编码器 (而不是标准 CLIP 视觉编码器) 的 LMM,并使用相同的弱监督进行训练。 我们的方法不受语义理解特定监督数据的偏差和有限规模的约束,因此具有更好的泛化性和可扩展性。 与分别使用语义理解 LMM 和通用 LMM 相比,我们在语义理解特定和通用视觉问答基准测试中都取得了有竞争力
………………………………