专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

福建教育微言 · 福建省启动高校毕业生培训直通车 · 5 小时前

田俊国讲坛 · 【2月26日】第32期《10天非凡心力训练营 ... · 6 小时前

田俊国讲坛 · 爱的奇形怪状，需要智慧才能看见｜第9期心智突 ... · 6 小时前

玺承电商观察 · 从CORE新流量机制到付费投流，多维度教你在 ... · 21 小时前

中国民兵 · 新文职进入不了工作该如何办？来看 → · 昨天

今天看啥 › 专栏 › 老刘说NLP

满血归来！一文全面揭秘Kimi 1.5最新推理模型背后的技术

老刘说NLP · 公众号 · · 2025-01-21 14:00

文章预览

我们最近回顾了许多关于大模型推理能力优化的技术工作，则陆陆续续有不少类openai o1之类的工作出现，这些工作的核心大多都是蒸馏longcot的数据进行微调，或者使用MCTS叠加强化学习等方式筛选数据，其机制在于，传统的语言模型预训练方法受限于高质量训练数据的可用性，而RL可以使模型通过学习探索奖励来扩展训练数据。或者利用prompt进行测试时进行慢思考或者投票，从而提升性能。但这引来了几个问题，如何在有限的计算资源下有效地进行长上下文RL训练，如何在不使用复杂技术（如蒙特卡罗树搜索、价值函数和过程奖励模型）的情况下实现高效的策略优化，以及如何将长上下文推理能力转移到短上下文推理模型中。昨天，国内大模型公司KIMI在官方隆重发布Kimik1.5，对应技术报告《Kimi k1.5:Scaling Reinforcement Learning with LLMs》(https://github. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

福建教育微言 · 福建省启动高校毕业生培训直通车

5 小时前

福建教育微言 · 福建省启动高校毕业生培训直通车

5 小时前

田俊国讲坛 · 【2月26日】第32期《10天非凡心力训练营》开营，欢迎报名参加！

6 小时前

田俊国讲坛 · 爱的奇形怪状，需要智慧才能看见｜第9期心智突围成功举办

6 小时前

玺承电商观察 · 从CORE新流量机制到付费投流，多维度教你在抖音获得高变现！

21 小时前

玺承电商观察 · 从CORE新流量机制到付费投流，多维度教你在抖音获得高变现！

21 小时前

中国民兵 · 新文职进入不了工作该如何办？来看 →

昨天

中国民兵 · 新文职进入不了工作该如何办？来看 →

昨天

iNature · MMR | 武汉大学曾宪涛/黄娇/方程发现牙周炎加重良性前列腺增生的潜在机理

9 月前

诗词天地 · 早读丨余生，好好经营自己

2 月前

每天学点HR · 2024年度中国人力资源行业大奖，重磅揭晓！

2 月前

平安璧山 · 民警提示防骗有招！

1 月前