讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Kimi K1.5:利用 LLM 规模化强化学习

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-01-23 00:07
    

文章预览

25年1月来自月之暗面 Kimi 团队的论文“Kimi K1.5: Scaling Reinforcement Learning With LLMs”。 语言模型预训练与下一个 token 预测已被证明对于扩展计算有效,但受限于可用的训练数据量。规模化强化学习 (RL) 为人工智能的持续改进开辟新的方向,有望使大语言模型 (LLM) 能够通过学习带奖励的探索来扩展其训练数据。然而,之前发表的研究并没有产生有竞争力的结果。鉴于此,本文报告 Kimi k1.5 的训练实践,使用 RL 训练的多模态 LLM,包括其 RL 训练技术、多模态数据配方和基础设施优化。长上下文扩展和改进的策略优化方法,是该方法的关键要素,它建立一个简单、有效的 RL 框架,而无需依赖更复杂的技术,例如蒙特卡洛树搜索、价值函数和过程奖励模型。值得注意的是,该系统在多个基准和模态下均实现最先进的推理性能——例如,AIME 上 77.5、MATH 500 上 96 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览