文章预览
在o1的整体框架篇中(https://zhuanlan.zhihu.com/p/773907223),我们从现有开源的论文和代码中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技术实现路径,如下图: 这里对于这张框架图我们不再做赘述,详情可以参见上面《框架篇》的文章链接。 我们之前说过, 这是一张高度抽象的框架图 ,旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上,以提升模型的逻辑推理能力”的含义。而从本文开始,我们将以具体的算法去扩展这张框架图的细节。 今天我们要具体扩展的,就是框架图中的Inference部分(黄色块), 从框架图可知,Inference部分一般有两个作用: 作用1:直接对inference过程进行优化,具体的优化方法例如 : PRM + some search methods 。其中PRM表示我们额外训练的、用于评估“模型中间步骤”而不是“模型答案结果”的奖
………………………………