专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

Openai O1之后的大型推理模型LRM是啥?兼看两个科研助手项目实现思路

老刘说NLP  · 公众号  ·  · 2024-09-25 10:10
    

文章预览

今天是2024年9月25日,星期三,北京,天气晴。 自从Openai O1推出之后,就有了一个新的名词,LRMs(大型推理模型),与传统LLMs相对。 背景是,随着大型语言模型(LLM)的兴起,其规划能力备受关注。OpenAI 的 o1(Strawberry)模型旨在突破自回归 LLM 的局限,成为新型的大型推理模型(LRM)。 那么,其到底是个啥东西,在规划能力上的主要区别是什么?我们先开看看。 这个可以看看工作《LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench》,https://arxiv.org/abs/2409.13373,大致的结论如下: LRMs (如OpenAl的o1模型)与传统LLMs在规划能力上的主要区别在于其架构和训练方式。 LRMs结合了底层的大型语言模型和一个通过强化学习预训练的系统,该系统负责指导推理痕迹的创建、管理和最终选择。 LRMs的训练过程中包含一个额外的强化学习预训练阶段,可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览