今天看啥  ›  专栏  ›  腾讯科技

一线|月之暗面发布推理模型,即将上线数学模型k0-math

腾讯科技  · 公众号  · 科技媒体  · 2024-11-17 11:41
    

主要观点总结

大模型公司月之暗面发布新产品K0-math,以深度推理为核心功能,采用强化学习技术。创始人兼CEO杨植麟介绍了大模型的范式变化及深度推理、多模态的探索。目前,月之暗面的产品已得到广泛的使用,且具备较高的泛化能力。同时,他认为中美在大模型上的差距是一个常数,并分享了对未来的规划和公司的发展方向。

关键观点总结

关键观点1: 新产品发布及核心功能介绍

月之暗面发布新产品K0-math,具有深度推理功能,即将上线。该功能主要通过强化学习技术实现,旨在让AI具备思考能力。

关键观点2: 深度推理与多模态的探索

创始人兼CEO杨植麟介绍了深度推理和多模态的重要性,以及如何将这些技术应用于产品中。深度推理是提高思考能力,思考决定AI的上限;多模态提高交互能力。

关键观点3: AI的泛化能力及强化学习的应用

强化学习训练出来的模型对于每一步思考更细致,出现跳步比较少,可确保泛化能力。杨植麟提到将强化学习更广泛地用于搜索场景。

关键观点4: 中美大模型的差距及未来规划

杨植麟认为中美在大模型上的差距是一个常数。对于未来,公司先聚焦再全球化,需要耐心。他也提到了预训练scaling law遇到的瓶颈可能对中国大模型团队是一个机会。


文章预览

腾讯新闻《一线》刘雨点 11月16日,大模型公司月之暗面(Moonshot AI)发布新产品,一款以深度推理为核心功能的数学模型K0-math。该产品将于近日上线。 月之暗面Kimi创始人兼CEO杨植麟在现场介绍称,大模型发生了范式变化,过去是通过next token prediction,但预测下一个词有局限性,是一个静态的数据集,没办法探索更难的任务。接下来大模型的目标是通过reinforcement learning(强化学习)让AI具备思考的能力。“接下来还能持续scale,只是过程不一样。”他称。 杨植麟谈到,什么样的场景最适合让AI锻炼思考能力?他认为是数学场景,这也是前两个月OpenAI发布o1核心想要表达的要点。这样,模型可以自己成为一个体系,不需要和外界交互。同时,强化学习训练出来的模型对于每一步思考更细致,出现跳步比较少,可确保泛化能力。 怎么把强化学习更广泛 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览