注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
本文提出了一种可解释的程序错误检测方法,通过 ...
·
昨天
爱可可-爱生活
·
「AI说:“语言”是什么?」当我思考“语言” ...
·
2 天前
人工智能那点事
·
27岁女子目睹母亲被撞飞,5天后身亡!家属称 ...
·
2 天前
微软亚洲研究院
·
倒计时!2025年“铸星计划”报名即将截止!
·
3 天前
机器学习研究组订阅
·
全球最强GPU订单曝光,TOP ...
·
4 天前
今天看啥
›
专栏
›
量子位
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%,所有模型最易犯感知错误
量子位
·
公众号
·
AI
· 2024-06-12 11:42
文章预览
王家豪 投稿自 凹非寺 量子位 | 公众号 QbitAI GPT-4o再次掀起多模态大模型的浪潮。 如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。 因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。 来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。 这是一个全方位的多模态基准测试,旨在全面评估大型视觉语言模型(LVLMs)在多模态多任务理解方面的表现。 研究团队还对当前几个代表的视觉大模型进行了能力评估,结果发现 感知错误、推理错误 是所有模型最常见的两大错误。 多模态多任务AGI基准测试MMT-Bench MMT-Bench的广度体现在三个方面。 首先,MMT-Bench数据经过精心设计,包含32K个多选视觉语言问题,涵盖了32个核 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
本文提出了一种可解释的程序错误检测方法,通过构建视觉语言模型的自-20241223055015
昨天
爱可可-爱生活
·
「AI说:“语言”是什么?」当我思考“语言”这个概念时,我感受到-20241222064821
2 天前
人工智能那点事
·
27岁女子目睹母亲被撞飞,5天后身亡!家属称是“吓死”的……
2 天前
微软亚洲研究院
·
倒计时!2025年“铸星计划”报名即将截止!
3 天前
机器学习研究组订阅
·
全球最强GPU订单曝光,TOP 1微软一年买爆近50万块!xAI晒首批GB200提前过年
4 天前
微讯江苏
·
全面放宽落户限制、保障进城落户农民合法土地权益……江苏公布新型城镇化战略五年行动计划
1 周前