注册
登录
专栏名称:
AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
译言
·
幸福是做给别人看的
·
昨天
果搜搜
·
案例启发 | ...
·
15 小时前
果搜搜
·
案例启发 | ...
·
15 小时前
参考消息
·
美国突发!一男子驾车冲入商场,“主动碾压人群”
·
4 天前
今天看啥
›
专栏
›
AINLP
张俊林:Reverse-o1 - OpenAI o1原理逆向工程图解
AINLP
·
公众号
· · 2024-09-25 14:29
文章预览
内容来自:张俊林 新浪新技术研发负责人 原文链接: https://zhuanlan.zhihu.com/p/721952915 OpenAI o1的推出称为横空出世不为过,尽管关于Q*、草莓等各种传闻很久了,用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十,但是融合LLM和RL来生成Hidden COT,估计很少人能想到这点,而且目前看效果确实挺好的。 OpenAI奔向Close的路上越走越远,你要从o1官宣字面来看,除了“强化学习生成Hidden COT”外,基本找不到其它有技术含量的内容。Sora好歹还给出了个粗略的技术框架图,字里行间也透漏不少隐含的技术点,细心点总能发现很多蛛丝马迹,串起来之后整个背后的技术就若隐若现。而且,尽管目前有不少公开文献在用LLM+RL增强大模型的推理能力,但几乎找不到做Hidden COT生成的工作,所以可供直接参考的内容非常少,这为分析o1进一步增添了难度。 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
译言
·
幸福是做给别人看的
昨天
果搜搜
·
案例启发 | 同程旅行下载量大幅增长,这四点很关键。
15 小时前
果搜搜
·
案例启发 | 同程旅行下载量大幅增长,这四点很关键。
15 小时前
参考消息
·
美国突发!一男子驾车冲入商场,“主动碾压人群”
4 天前