专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

新智元 · 公众号 · AI · 2024-08-09 12:35

文章预览

新智元报道编辑：乔杨好困【新智元导读】 RLHF到底是不是强化学习？最近，AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示：比起那种让AlphaGo在围棋中击败人类的强化学习，RLHF还差得远呢。昨天，Andrej Karpathy又发了长推，不过用了一句很有争议的话开头——「RLHF只是勉强的RL」。这条推特可谓「一石激起千层浪」，瞬间点燃了LLM社区的讨论热情。毕竟RLHF作为刚提出没几年的方法，又新颖又有争议。一边遭受质疑，一边又在工业界和学界迅速流行。 5G冲浪的LeCun也赶来声援Karpathy，但他的话很短，只有一句——「RLHF不是真正的RL」。 RLHF最早可以追溯到OpenAI安全团队2017年发表的论文：论文地址：https://arxiv.org/abs/1706.03741 当时，Jan Leike还在DeepMind、Dario Amodei还没创办Anthropic，而OpenAI还没all in语言模型，仍是一家研究范围更广 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 谷歌新架构终结Transformer，长序列处理王者诞生？清华姚班校友新作

20 小时前

爱可可-爱生活 · GenMol 通过结合离散扩散和 SAFE 分子表示，并引入片段-20250114055954

昨天

逻辑挖掘社 · 又一巨头公司布局AI！

昨天

逻辑挖掘社 · 又一巨头公司布局AI！

昨天

爱可可-爱生活 · 【[75星]Awesome-Agent4SE：关于软件工程中Ag-20250113141600

昨天

宝玉xp · 模型的记忆是权重。通常我们所说AI聊天的记忆就是把以前说过的话重-20250113084359

2 天前

梅斯医学 · 2024年居民医保最新缴费标准

4 月前

星海情报局 · 华为鸿蒙，上桌吃饭

2 月前

西二旗猿圈儿 · 中层拿捏了打工人的职场幸福感？

1 月前