专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

DeepSeek联合清华公布推理时Scaling新论文！R2要来了？

Datawhale · 公众号 · · 2025-04-04 21:52

文章预览

Datawhale学术最新：DeepSeek，编辑：机器之心一种全新的学习方法。这会是 DeepSeek R2 的雏形吗？本周五，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前，强化学习（RL）已广泛应用于大语言模型（LLM）的后期训练。最近 RL 对 LLM 推理能力的激励表明，适当的学习方法可以实现有效的推理时间可扩展性。RL 的一个关键挑战是在可验证问题或人工规则之外的各个领域获得 LLM 的准确奖励信号。本周五提交的一项工作中，来自 DeepSeek、清华大学的研究人员探索了奖励模型（RM）的不同方法，发现逐点生成奖励模型（GRM）可以统一纯语言表示中单个、成对和多个响应的评分，从而克服了挑战。研究者探索了某些原则可以指导 GRM 在适当标准内生成奖励，从而提高奖励的质量，这启发我们，RM 的推理时间可扩展性可以通过扩展高质量原则和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博