今年看好什么？

Dots机构投资者社区 · 公众号 · · 2025-01-04 08:15

文章预览

2024年底的DeepSeek给了全世界一个惊喜or惊吓。当然，训练算力不会减少，但训练的范式（FP8）尤其是对硬件的要求，已经暗含了很大变化。阉割的H800把幻方逼出了最精简的训练硬件需求，比如大幅削减了通信开销，尤其是All to All/All reduce这种大规模模型并行（Tensor Parallel）。相信幻方这次实践，会对北美搞10万卡集群搞得头大的团队有很大借鉴意义。从5月份的v2到这次的v3，基本可以判断，幻方是全球范围少有的同时懂infra+模型训练的AI团队。记得之前微软CTO kevin Scott访问AMD CEO时说过同样的话“现在的年轻人只懂high level语言，懂底层infra的语言的越来越少”。用我渣哥的总结就是：同时懂算法和Infra的人并不多, DeepSeek团队就是其中之一。但如之前文章所说，这只是让训练效率更高，训练算力总需求不会降低，前沿探索的实验室依然会榨干 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博