ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

机器学习研究组订阅 · 公众号 · AI · 2024-08-09 19:17

文章预览

昨天，Andrej Karpathy又发了长推，不过用了一句很有争议的话开头——「RLHF只是勉强的RL」。这条推特可谓「一石激起千层浪」，瞬间点燃了LLM社区的讨论热情。毕竟RLHF作为刚提出没几年的方法，又新颖又有争议。一边遭受质疑，一边又在工业界和学界迅速流行。 5G冲浪的LeCun也赶来声援Karpathy，但他的话很短，只有一句——「RLHF不是真正的RL」。 RLHF最早可以追溯到OpenAI安全团队2017年发表的论文：论文地址：https://arxiv.org/abs/1706.03741 当时，Jan Leike还在DeepMind、Dario Amodei还没创办Anthropic，而OpenAI还没all in语言模型，仍是一家研究范围更广泛的AI公司。他们提出，通过人类反馈，让AI模型更好地学习「如何翻出一个漂亮的后空翻」。训练时，AI agent在环境中不断观察并行动，并得到奖励模型的反馈进行自我改进。但比较特别的是，奖励函数是由拟合人 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 转发微博-20241217014622

23 小时前

爱可可-爱生活 · 【testzeus-hercules：开源的测试代理工具，旨在用-20241214165018

3 天前

爱可可-爱生活 · 「AI说：对话的背后到底是什么？」当我们说“对话”时，究竟是什么-20241212213434

5 天前

Founder Park · OpenAI发布季第五天：Apple Intelligence正式发布，深度集成ChatGPT

5 天前

Founder Park · OpenAI发布季第五天：Apple Intelligence正式发布，深度集成ChatGPT

5 天前

宝玉xp · OpenAI 直播的第 5 天，今天主要是演示 ChatGPT -20241212020804

5 天前

Clinic門诊新视野 · 诚邀您的莅临！Launcher指引导管上市20周年庆典

1 月前