文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 探索 AGI 的道路上,需要更广的能力纬度,更深的能力探索,全方面评估模型的优劣势。前有 DeepMind AlphaGeometry 在数学几何证明上达到了 IMO 金牌选手的水平,后有 AI-MO 挑战赛,探索 AI 在 IMO 竞赛上的表现。两者都在呼唤更有难度的评测集,来向大模型发起挑战,甚至是不远处的 AGI。 然而传统的数学、物理评测集随着 LLMs 和 LMMs 的快速发展,逐渐缺少挑战性,不能满足于目前研究需求,无法准确的评估当下模型的推理性能瓶颈。 近日, 我组 联合北航、曲一线智能出版中心联合发布了 OlympiadBench,一个 Olympiad-level 的双语、多模态的科学评测集 。包含 8952 条数学和物理题,这些都来自于国际奥赛、中国奥赛、中国高考题和模拟题。 根据评测,当下最好的多模态模型 GPT-4V 在 OlympiadBench 上仅达到
………………………………