专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

ACL 2024|OlympiadBench: Olympiad-level 的双语、多模态的科学评测集

AI TIME 论道  · 公众号  ·  · 2024-08-04 10:00

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 探索 AGI 的道路上,需要更广的能力纬度,更深的能力探索,全方面评估模型的优劣势。前有 DeepMind AlphaGeometry 在数学几何证明上达到了 IMO 金牌选手的水平,后有 AI-MO 挑战赛,探索 AI 在 IMO 竞赛上的表现。两者都在呼唤更有难度的评测集,来向大模型发起挑战,甚至是不远处的 AGI。 然而传统的数学、物理评测集随着 LLMs 和 LMMs 的快速发展,逐渐缺少挑战性,不能满足于目前研究需求,无法准确的评估当下模型的推理性能瓶颈。 近日, 我组 联合北航、曲一线智能出版中心联合发布了 OlympiadBench,一个 Olympiad-level 的双语、多模态的科学评测集 。包含 8952 条数学和物理题,这些都来自于国际奥赛、中国奥赛、中国高考题和模拟题。 根据评测,当下最好的多模态模型 GPT-4V 在 OlympiadBench 上仅达到 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览