专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

新智元  · 公众号  · AI  · 2024-08-09 12:35

文章预览

   新智元报道   编辑:乔杨 好困 【新智元导读】 RLHF到底是不是强化学习?最近,AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示:比起那种让AlphaGo在围棋中击败人类的强化学习,RLHF还差得远呢。 昨天,Andrej Karpathy又发了长推,不过用了一句很有争议的话开头——「RLHF只是勉强的RL」。 这条推特可谓「一石激起千层浪」,瞬间点燃了LLM社区的讨论热情。 毕竟RLHF作为刚提出没几年的方法,又新颖又有争议。一边遭受质疑,一边又在工业界和学界迅速流行。 5G冲浪的LeCun也赶来声援Karpathy,但他的话很短,只有一句——「RLHF不是真正的RL」。 RLHF最早可以追溯到OpenAI安全团队2017年发表的论文: 论文地址:https://arxiv.org/abs/1706.03741 当时,Jan Leike还在DeepMind、Dario Amodei还没创办Anthropic,而OpenAI还没all in语言模型,仍是一家研究范围更广 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览