主要观点总结
本文介绍了DeepSeek在训练范式和硬件要求方面的变化,以及幻方团队在模型训练方面的实践和创新。文章还讨论了算力需求、模型训练、基础设施和应用前景等方面的话题。
关键观点总结
关键观点1: DeepSeek引起全球关注,训练范式变化对硬件要求产生影响。
文章指出,虽然训练算力不会减少,但训练范式已经发生了变化,特别是在硬件要求方面。幻方团队通过精简训练硬件需求,如大幅削减通信开销,展示了其实践对行业的借鉴意义。
关键观点2: 幻方团队是同时懂算法和Infra的少数AI团队之一。
从DeepSeek的实践可以看出,幻方团队在模型训练和基础设施方面有着深厚的实力。这种综合实力的团队在全球范围内是少有的。
关键观点3: 训练和推理在算力需求上有不同的发展趋势。
文章提到,尽管训练总需求继续上涨,但推理增长得更快。这意味着在未来,算力结构可能会更多地偏向于推理。
关键观点4: 模型训练在基础设施上的障碍正在逐渐消除。
随着硬件使用效率的优化,模型训练在基础设施上的障碍正在逐渐减少。这为未来的模型训练提供了更大的可能性。
关键观点5: 未来AI领域的发展趋势和机遇。
文章讨论了未来AI领域的发展趋势,包括模型变小、推理成本降低、终端设备的拓展以及AI在各领域的应用前景等。此外,还提到了即将到来的CES可能是AI浓度最高的一次,以及英伟达等公司的现状和未来发展。
文章预览
2024年底的DeepSeek给了全世界一个惊喜or惊吓。当然,训练算力不会减少,但训练的范式(FP8)尤其是对硬件的要求,已经暗含了很大变化。 阉割的H800把幻方逼出了最精简的训练硬件需求,比如 大幅削减了通信开销 ,尤其是All to All/All reduce这种大规模模型并行(Tensor Parallel)。相信幻方这次实践,会对北美搞10万卡集群搞得头大的团队有很大借鉴意义。 从5月份的v2到这次的v3,基本可以判断, 幻方是全球范围少有的同时懂infra+模型训练的AI团队。 记得之前微软CTO kevin Scott访问AMD CEO时说过同样的话“现在的年轻人只懂high level语言,懂底层infra的语言的越来越少”。 用我渣哥的总结就是: 同时懂算法和Infra的人并不多, DeepSeek团队就是其中之一。 但如之前文章所说, 这只是让训练效率更高, 训练算力总需求不会降低 ,前沿探索的实验室 依然会榨干
………………………………