专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

多模态的幻觉诅咒!达摩院新作评估多模态大模型在语言、视觉和音频上的幻觉问题

PaperWeekly  · 公众号  · 科研  · 2024-11-01 19:43

文章预览

阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒(CMM),这是首个系统性地研究面向语言,视觉,和音频的多模态大模型(LMMs)幻觉问题的工作,对幻觉问题提供深入的分析和评估方法。 近年来,多模态大模型(LMMs)在人工智能的前沿领域取得了突破性进展,但仍然面临“幻觉”问题,即模型会生成与输入不符的信息。面对这一挑战,学术界提出了多种评价基准以及改进方法,但这些方法大多只关注单一模态(例如图像或视频),缺乏对更多模态参与时幻觉问题的综合分析和评价。 在本文中,我们我们系统性地分析了 LMMs 在最常见的三种模态(语言、视觉、音频)任务中的幻觉表现,揭示了多模态幻觉的两个根本来源:单模态先验依赖过强(Overreliance on Unimodal Priors)以及跨模态间的虚假关联(Spurious Inter- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览