专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
今天看啥  ›  专栏  ›  Datawhale

DeepSeek联合清华公布推理时Scaling新论文!R2要来了?

Datawhale  · 公众号  ·  · 2025-04-04 21:52
    

文章预览

 Datawhale学术  最新:DeepSeek,编辑:机器之心 一种全新的学习方法。 这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。 当前,强化学习(RL)已广泛应用于大语言模型(LLM)的后期训练。最近 RL 对 LLM 推理能力的激励表明,适当的学习方法可以实现有效的推理时间可扩展性。RL 的一个关键挑战是在可验证问题或人工规则之外的各个领域获得 LLM 的准确奖励信号。 本周五提交的一项工作中,来自 DeepSeek、清华大学的研究人员探索了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以统一纯语言表示中单个、成对和多个响应的评分,从而克服了挑战。 研究者探索了某些原则可以指导 GRM 在适当标准内生成奖励,从而提高奖励的质量,这启发我们,RM 的推理时间可扩展性可以通过扩展高质量原则和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览