专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

O1技术路线猜想-动作空间选择

AINLP · 公众号 · · 2024-09-27 14:45

文章预览

o1的技术路线 OpenAI的o1是这周最大的新闻，模型和大家预想的一样强，OpenAI也是一如既往的close。因此最近很多技术圈大佬都发布了自己的路线猜想，结合我最近看的一些论文和这些猜想，梳理了一下o1出现给我们带来的新的研究方向，并针对一些问题提出解决的猜想。推理架构这里的推理架构我指的是Sc-CoT、ToT这种。o1在训练过程中使用RL增强了模型生成CoT的能力，但其核心还是基于hidden CoT能力增强模型的推理能力，因此推理架构的选择就很重要。结合最近OpenAI对于prompt hacking的敏感态度，可以想象这种CoT的方式应该与现有的不同并且很重要。合成推理数据当有了好的推理架构后，可以结合现有的大模型去生成推理数据，虽然可能只有合成数据训练不一定能达到o1的水平，但确是目前最容易构建的一种推理模型。Reflection 70B的风头最近已经完全被o ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博