专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

ACL 2024｜OlympiadBench: Olympiad-level 的双语、多模态的科学评测集

AI TIME 论道 · 公众号 · · 2024-08-04 10:00

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！探索 AGI 的道路上，需要更广的能力纬度，更深的能力探索，全方面评估模型的优劣势。前有 DeepMind AlphaGeometry 在数学几何证明上达到了 IMO 金牌选手的水平，后有 AI-MO 挑战赛，探索 AI 在 IMO 竞赛上的表现。两者都在呼唤更有难度的评测集，来向大模型发起挑战，甚至是不远处的 AGI。然而传统的数学、物理评测集随着 LLMs 和 LMMs 的快速发展，逐渐缺少挑战性，不能满足于目前研究需求，无法准确的评估当下模型的推理性能瓶颈。近日，我组联合北航、曲一线智能出版中心联合发布了 OlympiadBench，一个 Olympiad-level 的双语、多模态的科学评测集。包含 8952 条数学和物理题，这些都来自于国际奥赛、中国奥赛、中国高考题和模拟题。根据评测，当下最好的多模态模型 GPT-4V 在 OlympiadBench 上仅达到 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

能源新媒 · 订购推荐 |《新能源决策参考》：智慧引领，决策助力

11 月前

数码闲聊站 · 超大杯早期工程机摸到了，双长焦望远能力超级增强~ -20240713091408

9 月前

同写意 · 专访复星医药全球研发中心CEO王兴利：医药格局重塑时代，本土药企如何追赶MNC？

8 月前

未名俱乐部 · 未名JOB | 招商局集团财务部2024年公开社会招聘（社招）

6 月前

中国新闻周刊 · 突发！一架客机在哈萨克斯坦坠毁

4 月前