专栏名称: 卡尔的AI沃茨

- 前阿里&百度大模型算法｜AI创业者｜擅长GPT开发及数字人应用- 创建开源AI学习体系learnprompt.pro，社群破万- 持续输出AI前沿科技资讯，关注我，让更多人成为AGI时代的创作者

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OpenAI发布o3新推理模型，我们离AGI又近了一步

卡尔的AI沃茨 · 公众号 · 互联网短视频 · 2024-12-21 03:08

主要观点总结

文章主要围绕OAI十二天直播收官之作进行描述，介绍了最新的模型o3的多个关键点，包括在不同数据集上的表现结果以及在定价、功能和申请使用等方面的信息。

关键观点总结

关键观点1: o3模型在多个数据集上的表现超过其他模型

在ARC-AGI、EpochAI的Frontier Math、SWE-Bench Verified、Codeforces、AIME 2024以及GPQA Diamond等多个数据集上，o3的表现均超过了其他模型，包括o1和GPT系列模型。

关键观点2: o3模型目前处于预览状态，不对所有用户开放

尽管o3的表现非常出色，但目前仅向通过其网站上的链接申请的安全人员开放内测。不过，o3 mini计划于1月底可访问，价格更便宜，且将支持o1的所有功能。

关键观点3: o3模型的推出时间以及命名原因

o3模型的推出时间相对较快，仅三个月后就推出了o1。关于命名原因，是因为之前的版本o2存在版权问题，因此直接命名为o3，属于被动跳级。

关键观点4: 文章对OAI十二天直播的总结和对更新的看法

文章提到了对OAI十二天直播的失望感，认为其中更新内容含有大量水分和营销手段。作者呼吁内容最重要，希望少点营销手段。

文章预览

可算迎来了OAI十二天直播收官之作，不是GPT4.5，也不是新Agent，DALLE4。第十二天没有多个更新。在谷歌抢先推出“o1极速版”的情况下，奥特曼带着o3来了。先说结论，o3很强，肉眼可见的强，甚至要重新做数据集来测出它的上限 1️⃣ 在ARC-AGI上：o3在低计算量下的得分超过了o1的三倍，且超过了87%的得分 2️⃣ 在EpochAI的Frontier Math上：o3创下新纪录，解决了25.2%的问题，而其他任何模型的解决率都未超过2% 3️⃣ 在SWE-Bench Verified上：o3的表现比o1高出了22.8个百分点 4️⃣ 在Codeforces上：o3获得了2727分，超越了OpenAI首席科学家的2665分 5️⃣ 在AIME 2024上：o3得分为96.7%，仅错了一个问题 6️⃣ 在GPQA Diamond上：o3的得分为87.7%，得分远超人类专家纯纯数值怪！那么厉害的模型是不是马上能用呢？至少200刀的Pro用户能内测？ No，o3 模型处于“预览”状态， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

徐州市场监管 · 工业互联网赋能汽车新工厂——数智化干出精细活（新春走基层·探访新质生产力）

15 小时前

徐州市场监管 · 工业互联网赋能汽车新工厂——数智化干出精细活（新春走基层·探访新质生产力）

15 小时前

第1眼新闻 · 别笑！“咱奶”这个全身动作“只有中国人可以”！

2 天前

第1眼新闻 · 别笑！“咱奶”这个全身动作“只有中国人可以”！

2 天前

华龙网 · 特写｜山城灯火处新岁踏歌来

4 天前

华龙网 · 特写｜山城灯火处新岁踏歌来

4 天前

广西文化和旅游厅 · 超有纪念意义！2025广西旅游年限定红包封面来咯

4 天前

广西文化和旅游厅 · 超有纪念意义！2025广西旅游年限定红包封面来咯

4 天前

天津广播 · 关注 | 火到宕机！带崩美股！DeepSeek为何一夜“破圈”？

5 天前

天津广播 · 关注 | 火到宕机！带崩美股！DeepSeek为何一夜“破圈”？

5 天前

杭州发布 · 姚高员看望慰问奥运冠军王澜静家人和启蒙教练

5 月前