专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

o3 发布了,摔碎了码农的饭碗

夕小瑶科技说  · 公众号  · 科技自媒体  · 2024-12-21 05:43
    

主要观点总结

OpenAI连续12天的直播中,最后一天揭示了o3及o3 mini的预告。文章详细描述了o3在编程、数学等领域的强大表现,以及相对于上一代模型o1的显著进步。o3在多个测试中的表现令人瞩目,如在codeforces上的排名、SWE-bench的准确率、AI数学测试基准AIME 2024的得分等。同时,文章也提到了o3的高成本和对人类工作岗位的冲击。最后,文章提到o3 mini即将在一月底上线,并附带o1的所有API功能。

关键观点总结

关键观点1: o3在编程竞技平台codeforces上击败了99.9%的程序员。

o3在这个竞赛中取得了175名的排名,意味着它已经在编程竞技中击败了世界上绝大多数的程序员。

关键观点2: o3在SWE-bench测试中表现出色。

在这个测试平台中,o3的准确率达到了71.7%,这代表着它能成功解决大部分实际问题。

关键观点3: o3在数学测试基准AIME 2024中表现出色。

o3在这个测试中得分96.7%,相当于在AMO美国数学奥林匹克竞赛中只答错了一道题。

关键观点4: o3的进步基于RL范式的scaling up。

通过对LLM+RL范式的深度挖掘和扩展,o3展现出了强大的能力。

关键观点5: o3 mini即将上线并附带o1的所有API功能。

预计在一月底发布的o3 mini将很快开放API调用,并具有与o1相当的功能。


文章预览

OpenAI 连续 12 天的直播,已经全部落下帷幕。 如本文标题,没想到,最后一天直播的核心内容竟然是 o3,以及 o3 mini 的预告。 为什么不是 o2?因为为了避免版权纠纷,OpenAI 放弃了 o2 的命名,直接叫 o3。 如果你让我用一句话来描述 o3,那么我可能会很郑重的告诉你—— 未来, 或许码农这个职业将不复存在,而短期内,也将遭受巨大的岗位需求和薪资冲击。 好消息是,o3 在美国,先从美国市场开始... 看到这儿,你肯定觉得我在扯淡,甚至都想好了回复话术——这句话我近两年听了 800 遍了。 但这次,o3 其实是在实践意义上证明了, 对于编程这种能良好的形式化定义任务 reward 以及轻易拿到过程数据的任务,通过对 RL 范式的 scale up,它的上限可以被持续拉高,直到成为世界上最顶级的程序员之一。 这张人类在线编程竞技平台 codeforces 上面 的图是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览