技术上，如何复现 o1?

深度学习与NLP · 公众号 · · 2024-09-17 00:00

文章预览

知乎：周舒畅链接：https://zhuanlan.zhihu.com/p/720127190 基础模型搞 o1 首先需要一个基模，这个基模必须是：能进行“长”生成。注意这和“长 context”不是一回事。模型生成的结果，经常会有自激的噪声存在，或分布逐渐变得非常 sharp，从而导致模型生成内容的后半段质量下降。比如写小说时会“烂尾”，用大团圆草草收场。在多模生成模型上也很容易观察到这一现象，表现为生成的音频和视频在结尾处要么糊掉要么变成静音静止。有较强的抗噪能力。目前看来，这一点刚需大模型，比如万亿的 step2 就是比千亿的 step1 好。小模型容易被 context 里的一点点错误带偏。考虑到 CoT 就是个 trial-and-error 的过程，要能从鱼龙混杂的 context 里筛出有用信息往下走，需要一个充分训练的大模型。数据数据上，如果起手式是模仿学习（SFT），需要至少是起动量 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博