Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

机器之心 · 公众号 · AI · 2024-08-09 12:44

文章预览

机器之心报道编辑：杜伟 RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。 AI 大牛 Karpathy 又来科普人工智能概念了。昨日，他发推表示，「基于人类反馈的强化学习（RLHF）只是勉强算得上是强化学习（RL）。」 Karpathy 的全文解释如下： RLHF 是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，前两个阶段分别是预训练和监督微调（SFT）。我认为 RLHF 只是勉强算得上 RL，它没有得到广泛的认可。RL 很强大，但 RLHF 却不然。让我们看看 AlphaGo 的例子，它是使用真正的 RL 训练的。计算机玩围棋（Go）游戏，并在实现奖励函数最大化的回合（赢得比赛）中训练，最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练，如果它用了，效果就不会那么好。用 RLHF 训练 AlphaGo 会是什么样子呢？首先，你要给人类标注员两个围棋 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 我的微博2024 #ai创造营# -20241225163924

23 小时前

人工智能那点事 · 担心的事发生了！可可西里“网红狼”疑被轧死，曾有人警告……

昨天

爱可可-爱生活 · //@爱可可-爱生活：今日开奖，欢迎参与～-20241225061502

昨天

爱可可-爱生活 · [CL]《State Space Models are Stro-20241223053613

3 天前

宝玉xp · 转发微博-20241223034119

3 天前

天野侠 · 饲养迷你河豚鱼，把迷你河豚和蚊子幼虫养一起，神奇的事发生了

6 月前

丁香园肿瘤时间 · 2024 NCCN 乳腺癌指南第 4 版更新，明确 SG 二线治疗 mTNBC 全人群地位！

3 月前

每日意图 · 不知道命运是什么，才知道什么是命运。

2 月前

每日意图 · 不知道命运是什么，才知道什么是命运。

2 月前

酷玩实验室 · 科技快讯 | 美团、哈啰单车被曝今起在郑州市系统升级；领克和极氪汽车未来前端销售依然分开...

1 月前