专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对

机器之心  · 公众号  · AI  · 2024-08-09 12:44
    

文章预览

机器之心报道 编辑:杜伟 RLHF 与 RL 到底能不能归属为一类,看来大家还是有不一样的看法。 AI 大牛 Karpathy 又来科普人工智能概念了。 昨日,他发推表示,「基于人类反馈的强化学习(RLHF)只是勉强算得上是强化学习(RL)。」 Karpathy 的全文解释如下: RLHF 是训练大语言模型(LLM)的第三个(也是最后一个)主要阶段,前两个阶段分别是预训练和监督微调(SFT)。我认为 RLHF 只是勉强算得上 RL,它没有得到广泛的认可。RL 很强大,但 RLHF 却不然。 让我们看看 AlphaGo 的例子,它是使用真正的 RL 训练的。计算机玩围棋(Go)游戏,并在实现奖励函数最大化的回合(赢得比赛)中训练,最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练,如果它用了,效果就不会那么好。 用 RLHF 训练 AlphaGo 会是什么样子呢?首先,你要给人类标注员两个围棋 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览