文章预览
OpenAI发布o1模型,标志着大模型的训练范式向推理侧转移 9月12日,OpenAI官方发布最新模型o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain of thought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。我们认为,o1的意义在以下几个方面:1)大模型Scaling Law的重心由预训练向后训练和推理侧转移。2)RL和长CoT的使用,定性增加了后训练和推理所需的算力。3)目前o1擅长的领域仍然是强推理需求的数学、代码、物理等领域,后续随着RL的进一步迭代,多领域泛化能力有望提升。建议关注国内算力链、苹果链和核心AI应用相关公司。 点击小程序查看研报原文 核心观点 大模型训练范式:Scaling Law重心从预训练向后训练和推理转移 2020年OpenAI提出的Scaling Law是大模型迭代的重要基础理论。o1之前
………………………………