今天看啥  ›  专栏  ›  APPSO

OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里

APPSO  · 公众号  · app  · 2025-01-20 12:12
    

文章预览

近日,OpenAI 再次陷入了舆论风波。 事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。 而这或许也是  o3 的成绩在短时间内获得极大提高的重要原因。 但 这个信息直到 去年 12 月 20 日 o3 发布时,才由 Epoch AI 对外公布。 消息一出,瞬间在 AI 圈引起轩然大波。 因为这很难不让网友怀疑 OpenAI 是既当裁判,也当选手。 吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。 去年 12 月,OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。 在其中一项名为 FrontierMath 的 AI 数学基准测试(成绩单)中,OpenAI 以 25.2% 的准确率遥遥领先,远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。 FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览