专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

O1技术路线猜想-动作空间选择

AINLP  · 公众号  ·  · 2024-09-27 14:45
    

文章预览

o1的技术路线 OpenAI的o1是这周最大的新闻,模型和大家预想的一样强,OpenAI也是一如既往的close。因此最近很多技术圈大佬都发布了自己的路线猜想,结合我最近看的一些论文和这些猜想,梳理了一下o1出现给我们带来的新的研究方向,并针对一些问题提出解决的猜想。 推理架构 这里的推理架构我指的是Sc-CoT、ToT这种。o1在训练过程中使用RL增强了模型生成CoT的能力,但其核心还是基于hidden CoT能力增强模型的推理能力,因此推理架构的选择就很重要。结合最近OpenAI对于prompt hacking的敏感态度,可以想象这种CoT的方式应该与现有的不同并且很重要。 合成推理数据 当有了好的推理架构后,可以结合现有的大模型去生成推理数据,虽然可能只有合成数据训练不一定能达到o1的水平,但确是目前最容易构建的一种推理模型。Reflection 70B的风头最近已经完全被o ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览