专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OpenAI o1：隐含在训练与推理间的动态泛化与流形分布

AINLP · 公众号 · · 2024-09-16 20:39

文章预览

作者：吕明随着OpenAI o1发布，进一步激发了产业与学术各界对AGI的期待以及new scaling law下的探索热情，也看到来自社区和专业机构对o1的阐释，但总感觉还差点什么，因此决定以自己的角度分篇幅梳理下，并分享给大伙： OpenAI o1在训练过程所采用的RL实际上可以理解为对long reasoning chain（长程推理链 & 步骤）的某种迭代式泛化能力探索explore，在这种探索下也很自然的形成了对模型从训练到推理两个阶段的动态渐进与平衡，而这当然也来源于强化学习RL中的R与L两者组合的结构范式本身，从而直观上形成了从training from real world data → influence to synthetis data的scaling law扩展与转移，且在这种新的scaling law下尝试性的铺设了一条通往AGI的相对平坦的“临时阶段性”道路。 ps：某种程度上，我想其也源于对人类system2·慢思考行为的形式化模拟。而之所以称之为 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博