今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

机器学习算法与自然语言处理  · 公众号  ·  · 2025-04-04 00:00
    

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 来源 | 量子位 作者|梦晨 一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办? 腾讯 & 苏州大学团队提出新框架RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。 RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。 除论文外,还开 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览