专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果:计算最优的Test-Time Scaling

量子位  · 公众号  · AI  · 2025-02-12 11:30
    

主要观点总结

本文报道了上海AI Lab/清华哈工大/北邮团队在人工智能领域取得最新研究成果。他们研究了Test-Time Scaling(TTS)在提升语言模型推理能力方面的进展,并发现最优的TTS方法取决于策略模型、过程奖励模型(PRM)和问题难度。团队提出了一种奖励感知型最优计算TTS框架,在MATH-500和AIME24数学推理数据集上取得了显著成果。此外,文章还提到了小模型在复杂任务上的表现以及未来的研究方向。

关键观点总结

关键观点1: 研究背景与目的

上海AI Lab等团队探究人工智能领域中的Test-Time Scaling(TTS)技术,研究目的是寻找最优的TTS方式,并探究其提升语言模型在复杂任务上表现的能力。

关键观点2: 最新研究成果

团队发现最优的TTS方法取决于策略模型、过程奖励模型(PRM)和问题难度。提出了一种奖励感知型最优计算TTS框架,并在MATH-500和AIME24数学推理数据集上取得了显著成果,包括小模型超越大模型的表现。

关键观点3: 实验评估

团队在MATH-500和AIME24数学推理数据集上进行了全面的实验评估,比较了不同策略模型、PRM和方法的表现,并发现TTS在相对简单任务上优势明显,但在更复杂的任务上还有提升空间。

关键观点4: 未来研究方向

团队提出了研究真正的 “从弱到强” 方法以及开发更具适应性和通用性的监督机制等未来研究方向,并指出将TTS扩展到更多任务,如代码和化学,以及探索更高效的计算最优TTS方法的重要性。


文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 倒反天罡了,新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版, 7B反超671B 。 除此之外,0.5B模型超过GPT-4o,1.5B的DeepSeek蒸馏Qwen超过o1-mini和o1-preview,3B的Llama超过405B的Llama…… 这是上海AI Lab/清华哈工大/北邮团队最新研究成果,通讯作者为 齐弼卿 和 周伯文 : 重新思考计算最优的Test-Time Scaling(TTS) ‍ 团队认为,尽管TTS在提升语言模型推理能力上取得进展,但目前的研究还缺乏对 策略模型、过程奖励模型(PRM)和问题难度 等因素影响的系统分析。 因此,该研究聚焦两个核心问题: 跨不同策略模型、PRM和问题难度,最优的TTS方式是什么? TTS能在多大程度上提升语言模型在复杂任务上的表现?小模型能否超越大模型? 重新思考Test-Time Scaling 为探究这些问题,团队在 MATH-500和AIME24 数学推理数据集上,使用多个不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览