今天看啥  ›  专栏  ›  机器学习研究组订阅

LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破

机器学习研究组订阅  · 公众号  · AI  · 2024-12-23 21:07
    

文章预览

在2016年的NeurIPS会议上,图灵奖得主Yann LeCun首次提出著名的「蛋糕比喻」: 如果智能是一块蛋糕,那么蛋糕中的大部分都是无监督学习,蛋糕上的糖霜(锦上添花)是有监督学习,蛋糕上的樱桃则是强化学习。 If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL). 从大型语言模型的发展路线来看,这种比喻实在是完美预测:从计算量FLOP上的开销来看,对互联网上的海量数据进行自监督学习占据了大部分训练时间;之后是用指令监督微调(SFT)数据进行后训练,开销相比自监督训练来说大大降低;最后的强化学习则是让大模型走向终端用户的必备阶段,可以提高模型的安全性,但模型只是从部分训练样本中学习少量信息。 在 OpenAI的第二天直播 中,宣布即将开放 「强 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览