文章预览
在2016年的NeurIPS会议上,图灵奖得主Yann LeCun首次提出著名的「蛋糕比喻」: 如果智能是一块蛋糕,那么蛋糕中的大部分都是无监督学习,蛋糕上的糖霜(锦上添花)是有监督学习,蛋糕上的樱桃则是强化学习。 If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL). 从大型语言模型的发展路线来看,这种比喻实在是完美预测:从计算量FLOP上的开销来看,对互联网上的海量数据进行自监督学习占据了大部分训练时间;之后是用指令监督微调(SFT)数据进行后训练,开销相比自监督训练来说大大降低;最后的强化学习则是让大模型走向终端用户的必备阶段,可以提高模型的安全性,但模型只是从部分训练样本中学习少量信息。 在 OpenAI的第二天直播 中,宣布即将开放 「强
………………………………