专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%,所有模型最易犯感知错误

量子位  · 公众号  · AI  · 2024-06-12 11:42
    

文章预览

王家豪 投稿自 凹非寺 量子位 | 公众号 QbitAI GPT-4o再次掀起多模态大模型的浪潮。 如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。 因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。 来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。 这是一个全方位的多模态基准测试,旨在全面评估大型视觉语言模型(LVLMs)在多模态多任务理解方面的表现。 研究团队还对当前几个代表的视觉大模型进行了能力评估,结果发现 感知错误、推理错误 是所有模型最常见的两大错误。 多模态多任务AGI基准测试MMT-Bench MMT-Bench的广度体现在三个方面。 首先,MMT-Bench数据经过精心设计,包含32K个多选视觉语言问题,涵盖了32个核 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览