专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

单靠推理Scaling Law无法成就o1！无限推理token，GPT-4o依然完败

新智元 · 公众号 · AI · 2024-09-29 13:03

文章预览

新智元报道编辑：编辑部 HXY 【新智元导读】 o1的秘诀，和全新的「推理Scaling Law」关系有多大？Epoch AI最近的对比实验表明，算法创新才是关键。 CoT铸就了o1推理王者。它开创了一种推理scaling新范式——随着算力增加、更长响应时间，o1性能也随之增长。这一点，为AI scaling开辟了新的可能性。既然如此，若是将o1这一训练过程直接应用到所有LLM中，岂不皆是「推理王者」。然而，研究机构Epoch AI发现，结果并不是这样的。单纯的扩展推理计算，根本不能弥合o1-preview和GPT-4o之间的差距。他们称，「虽然o1使用了逐步推理方法训练，但其性能改进，可能还存在其他的因素」。 o1的秘诀是什么？上周，在o1-preview和o1-mini发布之后，Epoch AI研究人员开启了GPT-4o和o1-preview对比实验。他们选择了一个具有挑战性的基准测试GPQA进行评估，其中包含STEM ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 看起来很厉害，可以无限长度！#ai##ai视频# 这个视频例子是-20241123083849

21 小时前

黄建同学 · v0刚刚更新了根据截图生成 UI 的能力，变得更强大了！ #ai-20241121073600

2 天前

黄建同学 · #谷歌聊天机器人竟回复称人类去死吧##ai# 确实有这个回复，一-20241119135326

4 天前

机器之心 · Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

5 天前

黄建同学 · 从基础到高级的LLM 微调的终极指南↓#ai##大模型# 这篇论-20241118120343

5 天前

璞缇客精品酒店 · 丽思隐世、六善、华尔道夫相中的世界最幸福国家!是自然物种天堂，还不设军队

4 月前

SCI天天读 · 中国健康工作预期寿命的决定因素和不平等性

3 月前