专家访谈汇总：DeepSeek是“算力屠夫”？

阿尔法工场研究院 · 公众号 · 投资 · 2025-02-06 07:00

文章预览

1 、《关于DeepSeek的投资看法分享》毫⽆疑问关于deepseek对于国内外AI产业链的影响成为春节前后关注度最⾼的问题，我们第⼀时间也做了深⼊探讨，总体来说，Deepseek的本身的优化和创新点在于： 1. V3以来使用FP8混合精度训练，多头注意力机制，稀疏MoE架构降低了整个模型的训练成本 2. R1-Zero，不用SFT（有监督学习，即基于⼈类标注数据的训练），大模型仍能够通过多轮RL迭代（无监督学习，即模型⾃发基于结果正确与否进⾏思维链的自我迭代）提升其推理能力 3. 蒸馏的有效性：将R1模型的推理能力蒸馏到小模型是奏效的，提升了端侧模型的推理能力上限/降低门槛同时其局限在于： 1. 仍然没有解决RL在数学和编程之外泛化的问题 2. 其对于成本的优化幅度，从媒体宣传口径上也有偏颇之处（不同时间点，单次和多次训练成本对⽐不合理等）总体 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博