专栏名称: 阿尔法工场研究院
民间投资共享平台——汇集投资高手,发现投资好点子。
今天看啥  ›  专栏  ›  阿尔法工场研究院

专家访谈汇总:DeepSeek是“算力屠夫”?

阿尔法工场研究院  · 公众号  · 投资  · 2025-02-06 07:00
    

文章预览

1 、 《 关于DeepSeek的投资看法分享 》 毫⽆疑问关于deepseek对于国内外AI产业链的影响成为春节前后关注度最⾼的问题,我们第⼀时间也做了深⼊探讨,总体来说,Deepseek的本身的优化和创新点在于: 1. V3以来使用FP8混合精度训练,多头注意力机制,稀疏MoE架构降低了整个模型的训练成本 2. R1-Zero,不用SFT(有监督学习,即基于⼈类标注数据的训练),大模型仍能够通过多轮RL迭代(无监督学习,即模型⾃发基于结果正确与否进⾏思维链的自我迭代)提升其推理能力 3. 蒸馏的有效性:将R1模型的推理能力蒸馏到小模型是奏效的,提升了端侧模型的推理能力上限/降低门槛 同时其局限在于: 1. 仍然没有解决RL在数学和编程之外泛化的问题 2. 其对于成本的优化幅度,从媒体宣传口径上也有偏颇之处(不同时间点,单次和多次训 练成本对⽐不合理等) 总体 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览