文章预览
2024年底的DeepSeek给了全世界一个惊喜or惊吓。当然,训练算力不会减少,但训练的范式(FP8)尤其是对硬件的要求,已经暗含了很大变化。 阉割的H800把幻方逼出了最精简的训练硬件需求,比如 大幅削减了通信开销 ,尤其是All to All/All reduce这种大规模模型并行(Tensor Parallel)。相信幻方这次实践,会对北美搞10万卡集群搞得头大的团队有很大借鉴意义。 从5月份的v2到这次的v3,基本可以判断, 幻方是全球范围少有的同时懂infra+模型训练的AI团队。 记得之前微软CTO kevin Scott访问AMD CEO时说过同样的话“现在的年轻人只懂high level语言,懂底层infra的语言的越来越少”。 用我渣哥的总结就是: 同时懂算法和Infra的人并不多, DeepSeek团队就是其中之一。 但如之前文章所说, 这只是让训练效率更高, 训练算力总需求不会降低 ,前沿探索的实验室 依然会榨干
………………………………