今年看好什么？

信息平权 · 公众号 · 科技创业科技自媒体 · 2025-01-02 21:43

主要观点总结

本文介绍了DeepSeek在训练范式和硬件要求方面的变化，以及幻方团队在模型训练方面的实践和创新。文章还讨论了算力需求、模型训练、基础设施和应用前景等方面的话题。

关键观点总结

关键观点1: DeepSeek引起全球关注，训练范式变化对硬件要求产生影响。

文章指出，虽然训练算力不会减少，但训练范式已经发生了变化，特别是在硬件要求方面。幻方团队通过精简训练硬件需求，如大幅削减通信开销，展示了其实践对行业的借鉴意义。

关键观点2: 幻方团队是同时懂算法和Infra的少数AI团队之一。

从DeepSeek的实践可以看出，幻方团队在模型训练和基础设施方面有着深厚的实力。这种综合实力的团队在全球范围内是少有的。

关键观点3: 训练和推理在算力需求上有不同的发展趋势。

文章提到，尽管训练总需求继续上涨，但推理增长得更快。这意味着在未来，算力结构可能会更多地偏向于推理。

关键观点4: 模型训练在基础设施上的障碍正在逐渐消除。

随着硬件使用效率的优化，模型训练在基础设施上的障碍正在逐渐减少。这为未来的模型训练提供了更大的可能性。

关键观点5: 未来AI领域的发展趋势和机遇。

文章讨论了未来AI领域的发展趋势，包括模型变小、推理成本降低、终端设备的拓展以及AI在各领域的应用前景等。此外，还提到了即将到来的CES可能是AI浓度最高的一次，以及英伟达等公司的现状和未来发展。

文章预览

2024年底的DeepSeek给了全世界一个惊喜or惊吓。当然，训练算力不会减少，但训练的范式（FP8）尤其是对硬件的要求，已经暗含了很大变化。阉割的H800把幻方逼出了最精简的训练硬件需求，比如大幅削减了通信开销，尤其是All to All/All reduce这种大规模模型并行（Tensor Parallel）。相信幻方这次实践，会对北美搞10万卡集群搞得头大的团队有很大借鉴意义。从5月份的v2到这次的v3，基本可以判断，幻方是全球范围少有的同时懂infra+模型训练的AI团队。记得之前微软CTO kevin Scott访问AMD CEO时说过同样的话“现在的年轻人只懂high level语言，懂底层infra的语言的越来越少”。用我渣哥的总结就是：同时懂算法和Infra的人并不多, DeepSeek团队就是其中之一。但如之前文章所说，这只是让训练效率更高，训练算力总需求不会降低，前沿探索的实验室依然会榨干 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

雨生云计算 · 印度跨国公司工作文化危机：加班狂欢还是职场噩梦？

4 小时前

雨生云计算 · 印度跨国公司工作文化危机：加班狂欢还是职场噩梦？

4 小时前

上海科创汇 · 申报|普陀区2025年海外人才专项

昨天

安徽交通广播 · 突发！苹果大降价！

2 天前

安徽交通广播 · 突发！苹果大降价！

2 天前

璀璨科学 · 可重复使用！中国航天飞机亮相，美国已“淘汰”，我们为何还要研究

3 天前

IPO早知道 · 药捷安康更新招股书：Tinengotinib治疗胆管癌处于全球多中心注册III期临床

4 天前

Khan安全攻防实验室 · 用友U9 UMWebService.asmx 任意文件读取

5 月前

医学论文与统计分析 · 轻断食又“封神”！北大学者发Cell子刊：坚持14小时轻断食，可有效改善脂肪肝

5 月前

吴春波H-R · 任正非：企业活命的根本，就是做好这两件事 -20241108100558

1 月前