LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

机器学习研究组订阅 · 公众号 · AI · 2024-12-23 21:07

文章预览

在2016年的NeurIPS会议上，图灵奖得主Yann LeCun首次提出著名的「蛋糕比喻」：如果智能是一块蛋糕，那么蛋糕中的大部分都是无监督学习，蛋糕上的糖霜（锦上添花）是有监督学习，蛋糕上的樱桃则是强化学习。 If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL). 从大型语言模型的发展路线来看，这种比喻实在是完美预测：从计算量FLOP上的开销来看，对互联网上的海量数据进行自监督学习占据了大部分训练时间；之后是用指令监督微调（SFT）数据进行后训练，开销相比自监督训练来说大大降低；最后的强化学习则是让大模型走向终端用户的必备阶段，可以提高模型的安全性，但模型只是从部分训练样本中学习少量信息。在 OpenAI的第二天直播中，宣布即将开放「强 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 奥特曼力挺年轻人「套壳」，25年程序员效率暴增10倍！GPT-4o狂造十亿图像

18 小时前

爱可可-爱生活 · 本文提出了贝叶斯预测编码 (BPC) 算法，通过在预测编码框架中-20250407051844

昨天

爱可可-爱生活 · 本文提出了随机误差攀升 (SEA) 框架，通过反直觉的迭代式语义-20250407052303

昨天

人工智能那点事 · 包括小米SU7事故路段，多地高速突然出现！最新回应……

2 天前

量子位 · DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

2 天前

多鲸 · 教育资讯播报 | 教育培训等卷款跑路构成欺诈！最高法公开征求意见；高顿教育集团更名为高顿，启动多品牌战略，业务拓至留学、文旅等

10 月前

zhtttyzhttty · 怎么可能，你看现在有多少龟男在骂我黑我？甚至2021年加拿大83-20240808220416

8 月前

此念 · 分享图片

7 月前

旅思马记 · 旅游火了，民宿却凉了

7 月前

ST张校长 · 一、简介：国内早期从事网络游戏开发、运营及发行的企业之一，首支A-20250317222640

3 周前