整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
目录
相关文章推荐
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

一些关于 RL for LLM 的思考

关于NLP那些你不知道的事  · 公众号  ·  · 2025-02-20 06:00
    

文章预览

一些关于 RL for LLM 的思考  作者: ducati 原文: https://zhuanlan.zhihu.com/p/22555190231 从  RL  的角度看,RL for  LLM  的 environment 是比较特殊的:首先它是  deterministic  的,其次其本身有准确的 model(虽然使用的算法都是  model-free  的)的,且原本的 reward 几乎都是 sequence-level(或者叫做  trajectory-level )而不是 token-level 的。 1. 前两点显然意味着 V function 和 Q function 等价。 2. critic 学的并不好,与第三点应该有很大的关系。 3. policy 不是普通模型,而是强大的 LLM, 其本身学习能力就很强,因此使用复杂、非常 sophisticated 的 RL 算法,可能反而并不比简洁有力的 RL 算法好。比如  deepseek-r1  和 kimi 都抛弃了 critic,某种意义上降低了复杂性,但都 work 的很好。以及老生常谈的 the bitter lesson:简洁的算法往往更容易 scale。 4. 最后来一句暴论,variance 稍微大些也 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览