全华人团队推出多模态大模型新基准，GPT-4o准确率仅为65.5%，所有模型最易犯感知错误

量子位 · 公众号 · AI · 2024-06-12 11:42

文章预览

王家豪投稿自凹非寺量子位 | 公众号 QbitAI GPT-4o再次掀起多模态大模型的浪潮。如果他们能以近似人类的熟练程度，在不同领域执行广泛的任务，这对许多领域带来革命性进展。因而，构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。这是一个全方位的多模态基准测试，旨在全面评估大型视觉语言模型（LVLMs）在多模态多任务理解方面的表现。研究团队还对当前几个代表的视觉大模型进行了能力评估，结果发现感知错误、推理错误是所有模型最常见的两大错误。多模态多任务AGI基准测试MMT-Bench MMT-Bench的广度体现在三个方面。首先，MMT-Bench数据经过精心设计，包含32K个多选视觉语言问题，涵盖了32个核 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 本文提出了一种可解释的程序错误检测方法，通过构建视觉语言模型的自-20241223055015

昨天

爱可可-爱生活 · 「AI说：“语言”是什么？」当我思考“语言”这个概念时，我感受到-20241222064821

2 天前

人工智能那点事 · 27岁女子目睹母亲被撞飞，5天后身亡！家属称是“吓死”的……

2 天前

微软亚洲研究院 · 倒计时！2025年“铸星计划”报名即将截止！

3 天前

机器学习研究组订阅 · 全球最强GPU订单曝光，TOP 1微软一年买爆近50万块！xAI晒首批GB200提前过年

4 天前

微讯江苏 · 全面放宽落户限制、保障进城落户农民合法土地权益……江苏公布新型城镇化战略五年行动计划

1 周前