专栏名称: 知乎日报
提供最好的资讯评论,兼顾专业与趣味。
今天看啥  ›  专栏  ›  知乎日报

全网独家!DeepSeek 模型的成本利润率到底有多高?官方下场公布细节

知乎日报  · 公众号  · 问答  · 2025-03-01 13:27
    

文章预览

点击上方卡片关注👆 DeepSe ek 在知乎首次公布模型推理系统优化细节,并披露成本利润率关键信息。 R1 模型是如何做到在控制成本的情况下做到高收益的?这篇官方文章给出了关键的数据信息。 DeepSeek-V3 / R1 推理系统概览   |   答主: DeepSeek DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。 为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(Expert Parallelism / EP)。首先 EP 使得 batch size 大大增加,从而提高 GPU 矩阵乘法的效率,提高吞吐。其次 EP 使得专家分散在不同的 GPU 上,每个 GPU 只需要计算很少的专家(因此更少的访存需求),从而降低延迟。 但 EP 同时也增加了系统的复杂性。复杂性主要体现在两个方面: EP 引入跨节点的传输。为了优化吞吐,需要设计合适的计算流程使得传输和计算可以同步进行。 EP 涉及多个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览