专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

满血归来!一文全面揭秘Kimi 1.5最新推理模型背后的技术

老刘说NLP  · 公众号  ·  · 2025-01-21 14:00
    

文章预览

我们最近回顾了许多关于大模型推理能力优化的技术工作,则陆陆续续有不少类openai o1之类的工作出现,这些工作的核心大多都是蒸馏longcot的数据进行微调,或者使用MCTS叠加强化学习等方式筛选数据, 其机制在于,传统的语言模型预训练方法受限于高质量训练数据的可用性,而RL可以使模型通过学习探索奖励来扩展训练数据 。或者利用prompt进行测试时进行慢思考或者投票,从而提升性能。 但这引来了 几个问题 ,如 何在有限的计算资源下有效地进行长上下文RL训练,如何在不使用复杂技术(如蒙特卡罗树搜索、价值函数和过程奖励模型)的情况下实现高效的策略优化,以及 如何将长上下文推理能力转移到短上下文推理模型中 。 昨天,国内大模型公司KIMI在官方隆重发布Kimik1.5,对应技术报告 《Kimi k1.5:Scaling Reinforcement Learning with LLMs》(https://github. ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览