文章预览
Don't teach. Incentivize 别教授它,去激励它 一点题外话:OpenAI o1发布引起了广泛的对所谓RL + Self-paly、Inference-time Scaling Up新范式的讨论,模型甫一发布,就有很多人在朋友圈说“早就知道xxxx了”,确实学术界已经做了蛮多类似的工作,甚至在小圈子里早已是共识,但是“知道”并没有什么用,重要的是我们如何真正“做到”,知道而做不到还是因为知道得太浅显。 回到本期主题,也是关于“范式”或者一些看待模型学习的新视角(按照最近常见的说法就是“可能是o1的核心秘诀!”(误),分享的视频来自OpenAI的Research Scientist Hyung Won Chung,短小精悍易理解,标题意思是说在训练模型时, 我们应当避免灌输给模型知识,而是激发模型去自主学习 ,除核心要点外还有更多有趣的细节。 放一下笔者对视频的摘要,只摘录了有启发性的句子,
………………………………