专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Openai O1之后的大型推理模型LRM是啥？兼看两个科研助手项目实现思路

老刘说NLP · 公众号 · · 2024-09-25 10:10

文章预览

今天是2024年9月25日，星期三，北京，天气晴。自从Openai O1推出之后，就有了一个新的名词，LRMs(大型推理模型)，与传统LLMs相对。背景是，随着大型语言模型（LLM）的兴起，其规划能力备受关注。OpenAI 的 o1（Strawberry）模型旨在突破自回归 LLM 的局限，成为新型的大型推理模型（LRM）。那么，其到底是个啥东西，在规划能力上的主要区别是什么?我们先开看看。这个可以看看工作《LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench》，https://arxiv.org/abs/2409.13373，大致的结论如下： LRMs (如OpenAl的o1模型)与传统LLMs在规划能力上的主要区别在于其架构和训练方式。 LRMs结合了底层的大型语言模型和一个通过强化学习预训练的系统，该系统负责指导推理痕迹的创建、管理和最终选择。 LRMs的训练过程中包含一个额外的强化学习预训练阶段，可 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

三联生活周刊 · 2025的开年25个金句，哪一条戳中了你？

昨天

三联生活周刊 · 2025，向光许愿，重新出发

2 天前

新周刊 · 今年春节，我只带它回家

4 天前

首席品牌观察 · 王思聪“野生代言”蜜雪冰城，全红婵又躺枪了

3 月前

国金证券研究 · 【国金金属|点评】锑：出口恢复确立价格拐点，重视板块二轮布局机会

1 月前

国金证券研究 · 【国金金属|点评】锑：出口恢复确立价格拐点，重视板块二轮布局机会

1 月前