今天看啥  ›  专栏  ›  机器之心

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

机器之心  · 公众号  · AI  · 2024-11-11 12:24
    

主要观点总结

本文介绍了马里兰大学研究团队提出的名为AutoHallusion的视觉大模型幻觉自动生成框架。该框架能够检测大模型在认知和推理任务中出现的幻觉现象,已发表于EMNLP 2024。文章还概述了大型视觉语言模型(LVLMs)的幻觉问题,以及之前解决此问题的方法的局限性。论文提出了三种主要策略来自动生成幻觉案例,并通过实验验证其有效性。此外,文章还介绍了该框架在GPT-4V、Gemini、Claude和LLaVA等大模型上的应用,并发布了一个基准数据集来评估模型性能。

关键观点总结

关键观点1: AutoHallusion框架简介

该框架能够自动生成大量的大模型幻觉案例,有效缓解当前大模型幻觉研究中数据集缺乏的问题。

关键观点2: 大型视觉语言模型的幻觉问题

大型视觉语言模型在内容生成、自动驾驶和机器人等领域中扮演重要角色,但会出现幻觉现象,即生成的响应中包含视觉内容中不存在的信息。

关键观点3: AutoHallusion框架的策略和方法

提出三种主要策略:插入异常物体、插入成对物体和移除相关物体,通过操控场景中的物体构成来创建与语言先验相冲突的图像。并针对修改后的图像,设计相应的问题探测大模型的语言模块,定位特定物体或其在相关情境中的语言先验信息。

关键观点4: 实验结果和基准数据集

AUTOHALLUSION在包括GPT-4V、Gemini、Claude和LLaVA等最新大模型上进行了实验,并整理发布了一个基准数据集。实验结果表明,GPT-4V等大模型的问答准确率最高仅为66.0%。此外,文章还介绍了基准数据集的三个方面:多样性、图像质量和有效性。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照