主要观点总结
文章主要围绕OAI十二天直播收官之作进行描述,介绍了最新的模型o3的多个关键点,包括在不同数据集上的表现结果以及在定价、功能和申请使用等方面的信息。
关键观点总结
关键观点1: o3模型在多个数据集上的表现超过其他模型
在ARC-AGI、EpochAI的Frontier Math、SWE-Bench Verified、Codeforces、AIME 2024以及GPQA Diamond等多个数据集上,o3的表现均超过了其他模型,包括o1和GPT系列模型。
关键观点2: o3模型目前处于预览状态,不对所有用户开放
尽管o3的表现非常出色,但目前仅向通过其网站上的链接申请的安全人员开放内测。不过,o3 mini计划于1月底可访问,价格更便宜,且将支持o1的所有功能。
关键观点3: o3模型的推出时间以及命名原因
o3模型的推出时间相对较快,仅三个月后就推出了o1。关于命名原因,是因为之前的版本o2存在版权问题,因此直接命名为o3,属于被动跳级。
关键观点4: 文章对OAI十二天直播的总结和对更新的看法
文章提到了对OAI十二天直播的失望感,认为其中更新内容含有大量水分和营销手段。作者呼吁内容最重要,希望少点营销手段。
文章预览
可算迎来了OAI十二天直播收官之作,不是GPT4.5,也不是新Agent,DALLE4。第十二天没有多个更新。在谷歌抢先推出“o1极速版”的情况下,奥特曼带着o3来了。 先说结论,o3很强,肉眼可见的强,甚至要重新做数据集来测出它的上限 1️⃣ 在ARC-AGI上:o3在低计算量下的得分超过了o1的三倍,且超过了87%的得分 2️⃣ 在EpochAI的Frontier Math上:o3创下新纪录,解决了25.2%的问题,而其他任何模型的解决率都未超过2% 3️⃣ 在SWE-Bench Verified上:o3的表现比o1高出了22.8个百分点 4️⃣ 在Codeforces上:o3获得了2727分,超越了OpenAI首席科学家的2665分 5️⃣ 在AIME 2024上:o3得分为96.7%,仅错了一个问题 6️⃣ 在GPQA Diamond上:o3的得分为87.7%,得分远超人类专家 纯纯数值怪!那么厉害的模型是不是马上能用呢?至少200刀的Pro用户能内测? No,o3 模型处于“预览”状态,
………………………………