一线｜月之暗面发布推理模型，即将上线数学模型k0-math

腾讯科技 · 公众号 · 科技媒体 · 2024-11-17 11:41

主要观点总结

大模型公司月之暗面发布新产品K0-math，以深度推理为核心功能，采用强化学习技术。创始人兼CEO杨植麟介绍了大模型的范式变化及深度推理、多模态的探索。目前，月之暗面的产品已得到广泛的使用，且具备较高的泛化能力。同时，他认为中美在大模型上的差距是一个常数，并分享了对未来的规划和公司的发展方向。

关键观点总结

关键观点1: 新产品发布及核心功能介绍

月之暗面发布新产品K0-math，具有深度推理功能，即将上线。该功能主要通过强化学习技术实现，旨在让AI具备思考能力。

关键观点2: 深度推理与多模态的探索

创始人兼CEO杨植麟介绍了深度推理和多模态的重要性，以及如何将这些技术应用于产品中。深度推理是提高思考能力，思考决定AI的上限；多模态提高交互能力。

关键观点3: AI的泛化能力及强化学习的应用

强化学习训练出来的模型对于每一步思考更细致，出现跳步比较少，可确保泛化能力。杨植麟提到将强化学习更广泛地用于搜索场景。

关键观点4: 中美大模型的差距及未来规划

杨植麟认为中美在大模型上的差距是一个常数。对于未来，公司先聚焦再全球化，需要耐心。他也提到了预训练scaling law遇到的瓶颈可能对中国大模型团队是一个机会。

文章预览

腾讯新闻《一线》刘雨点 11月16日，大模型公司月之暗面（Moonshot AI）发布新产品，一款以深度推理为核心功能的数学模型K0-math。该产品将于近日上线。月之暗面Kimi创始人兼CEO杨植麟在现场介绍称，大模型发生了范式变化，过去是通过next token prediction，但预测下一个词有局限性，是一个静态的数据集，没办法探索更难的任务。接下来大模型的目标是通过reinforcement learning（强化学习）让AI具备思考的能力。“接下来还能持续scale，只是过程不一样。”他称。杨植麟谈到，什么样的场景最适合让AI锻炼思考能力？他认为是数学场景，这也是前两个月OpenAI发布o1核心想要表达的要点。这样，模型可以自己成为一个体系，不需要和外界交互。同时，强化学习训练出来的模型对于每一步思考更细致，出现跳步比较少，可确保泛化能力。怎么把强化学习更广泛 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博