今天看啥  ›  专栏  ›  机器之心

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

机器之心  · 公众号  · AI  · 2024-11-11 12:24

主要观点总结

本文介绍了马里兰大学研究团队提出的名为AutoHallusion的视觉大模型幻觉自动生成框架。该框架能够检测大模型在认知和推理任务中出现的幻觉现象,已发表于EMNLP 2024。文章还概述了大型视觉语言模型(LVLMs)的幻觉问题,以及之前解决此问题的方法的局限性。论文提出了三种主要策略来自动生成幻觉案例,并通过实验验证其有效性。此外,文章还介绍了该框架在GPT-4V、Gemini、Claude和LLaVA等大模型上的应用,并发布了一个基准数据集来评估模型性能。

关键观点总结

关键观点1: AutoHallusion框架简介

该框架能够自动生成大量的大模型幻觉案例,有效缓解当前大模型幻觉研究中数据集缺乏的问题。

关键观点2: 大型视觉语言模型的幻觉问题

大型视觉语言模型在内容生成、自动驾驶和机器人等领域中扮演重要角色,但会出现幻觉现象,即生成的响应中包含视觉内容中不存在的信息。

关键观点3: AutoHallusion框架的策略和方法

提出三种主要策略:插入异常物体、插入成对物体和移除相关物体,通过操控场景中的物体构成来创建与语言先验相冲突的图像。并针对修改后的图像,设计相应的问题探测大模型的语言模块,定位特定物体或其在相关情境中的语言先验信息。

关键观点4: 实验结果和基准数据集

AUTOHALLUSION在包括GPT-4V、Gemini、Claude和LLaVA等最新大模型上进行了实验,并整理发布了一个基准数据集。实验结果表明,GPT-4V等大模型的问答准确率最高仅为66.0%。此外,文章还介绍了基准数据集的三个方面:多样性、图像质量和有效性。


文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本文的共同第一作者是马里兰大学电子计算机工程系的博士生吴曦旸(https://wuxiyang1996.github.io/)和计算机科学系的关天瑞(https://tianruiguan.phd/)。吴曦旸的研究方向主要涵盖强化学习、自动驾驶,以及大语言模型在机器人导航和计算机视觉中的应用。关天瑞的研究则聚焦于计算机视觉和视觉语言模型在机器人、自动驾驶等领域的应用。本文的指导老师为李典奇,周天翼教授 (https://tianyizhou.github.io/)和 Dinesh Manocha 教授 (https://www.cs.umd.edu/people/dmanocha)。 想象一下,有一天 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览