专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

技术上，如何复现 o1?

AINLP · 公众号 · · 2024-09-28 21:57

文章预览

知乎：周舒畅链接：https://zhuanlan.zhihu.com/p/720127190 基础模型搞 o1 首先需要一个基模，这个基模必须是：能进行“长”生成。注意这和“长 context”不是一回事。模型生成的结果，经常会有自激的噪声存在，或分布逐渐变得非常 sharp，从而导致模型生成内容的后半段质量下降。比如写小说时会“烂尾”，用大团圆草草收场。在多模生成模型上也很容易观察到这一现象，表现为生成的音频和视频在结尾处要么糊掉要么变成静音静止。有较强的抗噪能力。目前看来，这一点刚需大模型，比如万亿的 step2 就是比千亿的 step1 好。小模型容易被 context 里的一点点错误带偏。考虑到 CoT 就是个 trial-and-error 的过程，要能从鱼龙混杂的 context 里筛出有用信息往下走，需要一个充分训练的大模型。数据数据上，如果起手式是模仿学习（SFT），需要至少是起动量 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博