专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

新智元 · 公众号 · AI · 2025-02-12 12:43

文章预览

新智元报道编辑：编辑部 HNYZ 【新智元导读】仅凭测试时Scaling，1B模型竟完胜405B！多机构联手巧妙应用计算最优TTS策略，不仅0.5B模型在数学任务上碾压GPT-4o，7B模型更是力压o1、DeepSeek R1这样的顶尖选手。今天，一篇多机构联合发表的论文，在AI圈引起轰动。凭借重新思考计算最优的测试时Scaling，1B模型竟然超越了405B？随着OpenAI o1证明了测试时扩展（TTS）可以通过在推理时分配额外算力，大幅增强LLM的推理能力。测试时计算，也成为了当前提升大模型性能的最新范式。那么，问题来了：在不同的策略模型、过程奖励模型和问题难度级别下，如何最优地扩展测试时计算？扩展计算在多大程度上可以提高大语言模型在复杂任务上的表现，较小的语言模型能否通过这种方法实现对大型模型的超越？对此，来自清华、哈工大、北邮等机构的研 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · DeepSeek冲击之下，大模型六小强如何「回应」？

3 天前

爱可可-爱生活 · 【使用 uv + venv 而不是 conda + pip 的P-20250216102435

3 天前

爱可可-爱生活 · 【《理解深度学习》随书代码：各种深度学习模型的Colab Not-20250216083537

3 天前

爱可可-爱生活 · 【[284星]Hacker News 中文播客：用AI技术将 H-20250216085442

3 天前

爱可可-爱生活 · [LG]《Reevaluating Policy Gradien-20250216061439

3 天前

大悟新闻 · 大悟县2024年事业单位公开招聘！综合成绩公布！

8 月前

题材小表格 · 最新A股DRG/DIP概念股梳理

7 月前

新声Pro · 硬科技周期内，见识博主正在引领知识服务新趋势

6 月前