专栏名称: 信息平权
理性 客观 朴素
目录
相关文章推荐
今天看啥  ›  专栏  ›  信息平权

到底需要多少算力?

信息平权  · 公众号  ·  · 2025-02-16 20:04
    

文章预览

中午群里热烈讨论微信+DS到底需要多少算力的问题,专门邀请了zartbot老师写了分析文章,重点摘一下: 其实很多时候成本估算的分歧, 本质是大家各自优化技术上的差距。例如尤洋老师估计的数据, 和DeepSeek-V3的论文实现的PD分离+EP并行性能差距超过10倍。本质上的成本差异是 TP/PP并行的简单结果,与完整EP并行、MTP等优化花活全上,中间的差距非常巨大 。比如Google Gemini 2.0 Flash的极低价格水平来看, 大家技术上还有很多优化空间。 DeepSeek-V3/R1模型的算力需求是相对较小的, 推理瓶颈主要是在 访存、 All2All通信、如何解决专家负载均衡 例如华为昇腾提到的:“通过EP混合并行算法, 通信优化性能提升30%+, 访存性能提升20%+, 从而降低专家不均衡度, 推理吞吐性能提升20%~35%” 另一方面从袁进辉老师的一段话可以知道, 梁总为啥要推荐性能最好需要80台, 主要 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览