啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果：计算最优的Test-Time Scaling

量子位 · 公众号 · AI · 2025-02-12 11:30

主要观点总结

本文报道了上海AI Lab/清华哈工大/北邮团队在人工智能领域取得最新研究成果。他们研究了Test-Time Scaling（TTS）在提升语言模型推理能力方面的进展，并发现最优的TTS方法取决于策略模型、过程奖励模型（PRM）和问题难度。团队提出了一种奖励感知型最优计算TTS框架，在MATH-500和AIME24数学推理数据集上取得了显著成果。此外，文章还提到了小模型在复杂任务上的表现以及未来的研究方向。

关键观点总结

关键观点1: 研究背景与目的

上海AI Lab等团队探究人工智能领域中的Test-Time Scaling（TTS）技术，研究目的是寻找最优的TTS方式，并探究其提升语言模型在复杂任务上表现的能力。

关键观点2: 最新研究成果

团队发现最优的TTS方法取决于策略模型、过程奖励模型（PRM）和问题难度。提出了一种奖励感知型最优计算TTS框架，并在MATH-500和AIME24数学推理数据集上取得了显著成果，包括小模型超越大模型的表现。

关键观点3: 实验评估

团队在MATH-500和AIME24数学推理数据集上进行了全面的实验评估，比较了不同策略模型、PRM和方法的表现，并发现TTS在相对简单任务上优势明显，但在更复杂的任务上还有提升空间。

关键观点4: 未来研究方向

团队提出了研究真正的 “从弱到强” 方法以及开发更具适应性和通用性的监督机制等未来研究方向，并指出将TTS扩展到更多任务，如代码和化学，以及探索更高效的计算最优TTS方法的重要性。

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI 倒反天罡了，新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版， 7B反超671B 。除此之外，0.5B模型超过GPT-4o，1.5B的DeepSeek蒸馏Qwen超过o1-mini和o1-preview，3B的Llama超过405B的Llama…… 这是上海AI Lab/清华哈工大/北邮团队最新研究成果，通讯作者为齐弼卿和周伯文：重新思考计算最优的Test-Time Scaling（TTS） ‍ 团队认为，尽管TTS在提升语言模型推理能力上取得进展，但目前的研究还缺乏对策略模型、过程奖励模型(PRM)和问题难度等因素影响的系统分析。因此，该研究聚焦两个核心问题：跨不同策略模型、PRM和问题难度，最优的TTS方式是什么？ TTS能在多大程度上提升语言模型在复杂任务上的表现？小模型能否超越大模型？重新思考Test-Time Scaling 为探究这些问题，团队在 MATH-500和AIME24 数学推理数据集上，使用多个不 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博