专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150+天才集结，开出千万年薪

新智元 · 公众号 · AI · 2025-02-01 11:55

主要观点总结

本文介绍了DeepSeek项目的深度分析，包括其训练成本、算法优化、推理能力等方面的关键信息。DeepSeek通过采用新技术如多头潜注意力（MLA）和强化学习（RL），实现了模型推理成本的显著降低。文章还探讨了DeepSeek与其他AI实验室的竞争情况，以及AI未来的发展趋势。

关键观点总结

关键观点1: DeepSeek项目简介

DeepSeek是一个致力于AI研究的项目，通过采用新技术和创新策略，实现了AI模型的重大突破。

关键观点2: DeepSeek的训练成本

DeepSeek的训练成本远超600万美元，包括预训练成本、硬件总拥有成本等。但算法优化和新技术应用使得单位投入所能获得的智能水平提升更为显著。

关键观点3: 算法优化和推理能力

DeepSeek通过采用多头潜注意力（MLA）和强化学习（RL）等新技术，实现了模型推理能力的显著提升。其中，MLA技术显著减少了模型推理阶段的计算资源消耗。

关键观点4: DeepSeek与竞争对手的比较

DeepSeek已经成为当今最优秀的“开源权重”（open weights）实验室之一，其成就超越了Meta Llama、Mistral等竞争对手。与OpenAI的竞争也展示了DeepSeek的领先优势和价格策略。

关键观点5: AI未来的发展趋势

AI实验室在绝对投入增加的同时，单位投入所能获得的智能水平提升更为显著。预计未来AI技术的发展速度将越来越快，领先公司的定价权将越来越重要。同时，开源模型市场也将面临商品化的风险。

文章预览

新智元报道编辑：桃子好困【新智元导读】外媒SemiAnalysis的一篇深度长文，全面分析了DeepSeek背后的秘密——不是「副业」项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪，攻克MLA直接让推理成本暴降...... DeepSeek这波强攻，彻底把OpenAI逼急了——深夜紧急上线o3-mini 。整整半个月，中国AI承包了国内外各大头条，影响力只增不减。关于DeepSeek模型训练数据、GPU用量、成员构成、RL训练算法，早已成为所有人的关注焦点。 SemiAnalysis一篇深度报道中，从多个方面进行了推测——训练成本、对闭源模型利润影响、团队等等。其中一些关键亮点包括： DeepSeek不是「副业」，在GPU等硬件支出远超5亿美元，论文中600万美元仅是预训练运行GPU成本，研发、硬件总拥有成本（TCO）被排除在外 DeepSeek大约有5万块Hopper GPU，包括特供版H800 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博