注册登录

专栏名称: APPSO

让智能手机更好用的秘密。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

小众软件 · 让第三方蓝牙设备也能加入苹果的全球查找网络 · 昨天

APPSO · 宇树最新机器人又刷屏，海外网友质疑是 CG ... · 2 天前

小众软件 · 另外两件事[25117] · 3 天前

APPSO · 马斯克二代星舰第一飞！再次「筷子夹火箭」，但 ... · 4 天前

今天看啥 › 专栏 › APPSO

OpenAI 最强模型被曝造假！提前获取测试题，顶级数学家被蒙在鼓里

APPSO · 公众号 · app · 2025-01-20 12:12

文章预览

近日，OpenAI 再次陷入了舆论风波。事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露，OpenAI 不仅为 FrontierMath 基准测试提供资金支持，还获得了测试题库的特权访问权。而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到去年 12 月 20 日 o3 发布时，才由 Epoch AI 对外公布。消息一出，瞬间在 AI 圈引起轩然大波。因为这很难不让网友怀疑 OpenAI 是既当裁判，也当选手。吃瓜之前，需要给不熟悉的朋友先捋事件的背景信息。去年 12 月，OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。在其中一项名为 FrontierMath 的 AI 数学基准测试（成绩单）中，OpenAI 以 25.2% 的准确率遥遥领先，远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。 FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小众软件 · 让第三方蓝牙设备也能加入苹果的全球查找网络

昨天

APPSO · 宇树最新机器人又刷屏，海外网友质疑是 CG 特效，英伟达 AI 科学家力挺

2 天前

小众软件 · 另外两件事[25117]

3 天前

APPSO · 马斯克二代星舰第一飞！再次「筷子夹火箭」，但二级解体了

4 天前

弗雷赛斯 · 最高影响因子51.27，价格却只有市场价1/2！弗雷赛斯“润色”将继续不忘初心！

5 月前

盘前消息 · 稀土永磁.房地产行业相关概念股梳理

2 月前

爱可可-爱生活 · 【[221星]Nyx：高精度、快速、可靠的天体动力学工具包，用R-20250112155509

1 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号