刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

机器之心 · 公众号 · AI · 2024-12-21 04:38

主要观点总结

文章介绍了OpenAI在为期12天的发布活动中推出的新推理系列模型o3和o3-mini。o3是o1系列模型的继任者，旨在通过更长时间的思考提高回答的准确率。o3在多个基准测试中表现出色，如ARC-AGI、SWE-bench Verified和Competition Code等。o3-mini是更经济高效的版本，专注于提升推理速度、降低推理成本的同时保持模型性能。文章还介绍了o3和o3-mini的安全测试申请流程和新安全评估方法。

关键观点总结

关键观点1: OpenAI推出新推理模型o3和o3-mini

作为o1系列模型的继任者，o3旨在提高回答准确率；o3-mini注重经济高效性，适合编程任务。

关键观点2: o3在多个基准测试中表现优异

o3在ARC-AGI、SWE-bench Verified和Competition Code等基准测试中取得重要突破，显示出强大的性能。

关键观点3: o3和o3-mini的安全测试及申请流程

OpenAI正在进行o3和o3-mini的安全测试，申请者需填写表格并提供相关信息，被选中的研究人员将获得探索模型能力并为安全评估做出贡献。

关键观点4: 新的安全评估方法：审议式对齐

OpenAI介绍了一种新的安全评估方法——审议式对齐，可以直接教授模型安全规范，并训练其在回答前进行推理和遵守安全政策。

文章预览

机器之心报道机器之心编辑部刚刚，OpenAI 为期 12 天的发布迎来尾声。如外界所料，新的推理系列模型 ——o3 和 o3-mini 成为这次发布的收官之作。 o3 是 o1 系列模型的继任者。这类模型的特点是让模型在回答问题之前花更多时间思考（推理），从而提高回答的准确率。不过，OpenAI 在命名上跳过了 o2。据 The Information 报道，这么做是为了避免版权问题，因为英国有家电信公司名叫 O2，可能引起混淆。Sam Altman 在今天下午的直播中证实了这一点。事实上，从昨天开始，OpenAI 就已经开始预热这个模型。而且已经有开发者在网上找到了 OpenAI 网站上对 o3_min_safety_test 的引用。也有人早早就想看看 o3 究竟有何真本事，能否匹敌谷歌昨天发布的 Gemini 2.0 Flash Thinking。现在，和传言的一样，o3 和 o3-mini 来了！遗憾的是，o3 系列模型并不会直接公开发布，而是会 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Midscene.js：一款AI驱动的自动化软件开发工具包，能-20241219134303

昨天

爱可可-爱生活 · 【Kiln AI：用于微调大型语言模型（LLM）、生成合成数据和-20241218142240

2 天前

宝玉xp · 总结得好👍//@蝈蝈俊:可控（不要庞大，职责单一），兜底（测试-20241218143522

2 天前

黄建同学 · Anthropic通过Clio平台对Claude的真实使用场景进-20241216221305

4 天前

爱可可-爱生活 · 【NeoCodeium：为neovim提供的免费AI代码补全插件-20241215195157

5 天前

一席 · 好久不见，本周六一席上海场正在售票，了解详情及购票请点击👉🏻一席上海本场我们将关注一些具体且迫切的问题：久治不愈的疼痛如何解决？外出工作的父母如何与远方的孩子保持情感互动？如何培养孩子的批判性思维？什么样的教育制度逻辑塑造了这一代痛苦的青年人？另外我们第一次邀请了一位职业足球教练，但他并不准备讨论如何拯救中国足球。

6 月前