今天看啥  ›  专栏  ›  AI寒武纪

AI大神Andrej Karpathy:RLHF并非真正的强化学习,强化学习还未实现

AI寒武纪  · 公众号  ·  · 2024-08-08 12:47

文章预览

OpenAI联合创始人和特斯拉前AI总监Andrej Karpathy大神对当前广受关注的RLHF(基于人类反馈强化学习)技术提出了尖锐的批评。他指出,尽管RLHF被视为大语言模型训练的重要一环,但它可能只是一个"纸老虎"——看似强大,实则存在根本性缺陷,他认为: 1.RLHF(人类反馈强化学习)实际上并不是真正的强化学习 2.RLHF使用的奖励模型只是人类偏好的代理,而非真正的目标函数 3.RLHF容易被模型游戏化,导致出现不合理但高分的输出 4.尽管有局限性,RLHF仍然在某些方面有益于LLM的训练 5.真正的LLM强化学习尚未实现,但可能是未来AI突破的关键 以下是全文, RLHF 只是勉强算作强化学习 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)是训练大语言模型(LLM)的第三个(也是最后一个)主要阶段,在预训练和监督微调(SFT)之后。 我对RLHF的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览