文章预览
最近在OpenAI o1发布以后,OpenAI的研究科学家Hyung Won Chung 放出了去年他在 在MIT的一次演讲,当时他正在思考范式的转变 这次演讲的标题定为“别教,要激励”。我们无法枚举我们希望从通用人工智能 (AGI) 系统中获得的每一项技能,因为它们太多了。在Chung看来,唯一可行的方法是激励模型,从而使通用技能涌现出来 Chung大佬认为,与其手把手教AI各种技能,不如给它设定一个目标,然后“诱惑”它自己去学习。他以OpenAI最新发布的模型o1为例,认为这代表了一种全新的AI训练范式 (什么是“激励式”训练?) Chung大佬的核心观点是: 想让AI掌握所有技能是不可能的,我们应该激励它自己去学习通用技能。 他用“预测下一个词元(next token prediction)” 作为例子,认为这是一种弱激励结构,可以让模型通过学习少量通用技能来解决海量任务,而不是一个个
………………………………