全网独家！DeepSeek 模型的成本利润率到底有多高？官方下场公布细节

知乎日报 · 公众号 · 问答 · 2025-03-01 13:27

文章预览

点击上方卡片关注👆 DeepSe ek 在知乎首次公布模型推理系统优化细节，并披露成本利润率关键信息。 R1 模型是如何做到在控制成本的情况下做到高收益的？这篇官方文章给出了关键的数据信息。 DeepSeek-V3 / R1 推理系统概览 | 答主： DeepSeek DeepSeek-V3 / R1 推理系统的优化目标是：更大的吞吐，更低的延迟。为了实现这两个目标，我们的方案是使用大规模跨节点专家并行（Expert Parallelism / EP）。首先 EP 使得 batch size 大大增加，从而提高 GPU 矩阵乘法的效率，提高吞吐。其次 EP 使得专家分散在不同的 GPU 上，每个 GPU 只需要计算很少的专家（因此更少的访存需求），从而降低延迟。但 EP 同时也增加了系统的复杂性。复杂性主要体现在两个方面： EP 引入跨节点的传输。为了优化吞吐，需要设计合适的计算流程使得传输和计算可以同步进行。 EP 涉及多个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博