文章预览
节前匆匆写了篇 OpenAI o1 相关论文概览 [1] ,过节期间做了下 self-critic,发现在整体框架方面的介绍还是讲得不够清楚。比如: 看起来都是合成数据,但后面用于监督学习和利用强化学习的思路来优化 generator/actor/policy network(强化学习里的概念真多……),还是很不一样的。 所谓的 test-time search 也并不只是作用于推理(inference)阶段利用 CoT,MCTS 来提升 reasoning 效果,在 train-time 也是重要的一环,增强整体生成 reasoning 质量的能力。 对于 reward model 来说可能也需要进一步区分,像数学、代码这类在某些情况下可以“形式化验证”的生成内容,可能还是需要构建面向过程的 reward model,这是为什么呢? 鉴于 AlphaGo 非常深入人心,我们可以拿下棋来类比一下 LLM 中的 RL 范式具体是个什么样的概念: 下棋的动作,可以类比为 LLM 生成内容。但对于 LLM 来说
………………………………