专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

新智元  · 公众号  · AI  · 2025-02-12 12:43
    

文章预览

   新智元报道   编辑:编辑部 HNYZ 【新智元导读】 仅凭测试时Scaling,1B模型竟完胜405B!多机构联手巧妙应用计算最优TTS策略,不仅0.5B模型在数学任务上碾压GPT-4o,7B模型更是力压o1、DeepSeek R1这样的顶尖选手。 今天,一篇多机构联合发表的论文,在AI圈引起轰动。 凭借重新思考计算最优的测试时Scaling,1B模型竟然超越了405B? 随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。 测试时计算,也成为了当前提升大模型性能的最新范式。 那么,问题来了: 在不同的策略模型、过程奖励模型和问题难度级别下,如何最优地扩展测试时计算? 扩展计算在多大程度上可以提高大语言模型在复杂任务上的表现,较小的语言模型能否通过这种方法实现对大型模型的超越? 对此,来自清华、哈工大、北邮等机构的研 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览