专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%,所有模型最易犯感知错误

大模型智能  · 公众号  ·  · 2024-06-15 00:05
    

文章预览

大模型智能|分享 来源 | 量子位 作者 | 王家豪 GPT-4o再次掀起多模态大模型的浪潮。 如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。 因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。 来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。 这是一个全方位的多模态基准测试,旨在全面评估大型视觉语言模型(LVLMs)在多模态多任务理解方面的表现。 研究团队还对当前几个代表的视觉大模型进行了能力评估,结果发现感知错误、推理错误是所有模型最常见的两大错误。 01 多模态多任务AGI基准测试MMT-Bench MMT-Bench的广度体现在三个方面。 首先,MMT-Bench数据经过精心设计,包含32K个多选视觉语言问题,涵盖了32 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览