主要观点总结
DeepSeek开源项目发布最新动态,披露大规模部署成本和收益。其V3/R1架构通过大规模跨节点专家并行优化推理系统,实现更高的吞吐和更低的延迟。项目开源部分模块,降低社区复现难度。DeepSeek宣布调整API调用价格,并强调其成本定价原则。官方详解文章涉及大规模跨节点专家并行、计算通信重叠、负载均衡等方面内容,并分享线上系统实际统计数据。文章还提到DeepSeek V3和R1服务的GPU使用情况和成本收益情况。
关键观点总结
关键观点1: DeepSeek V3/R1架构特点
由大量小Expert组成,与主流模型结构有显著差异,需遵循DeepSeek报告描述的方法以达到最佳效率。DeepSeek开源部分模块降低了复现难度。
关键观点2: 大规模跨节点专家并行(Expert Parallelism / EP)
是实现DeepSeek V3/R1推理系统优化目标的关键技术,通过增加 overall batch size来为每个专家提供足够的expert batch size,实现更大吞吐、更低延时。
关键观点3: 计算通信重叠和负载均衡
多机多卡的专家并行引入较大通信开销,通过双batch重叠掩盖通信开销提高整体吞吐。同时,实现计算负载均衡和通信负载均衡以提高系统效率。
关键观点4: DeepSeek的API调用价格调整
DeepSeek调整API调用价格,强调其根据成本定价的原则。实际收入和成本情况也有所提及。
关键观点5: 线上系统实际统计数据
分享了关于DeepSeek V3和R1服务的GPU使用情况、成本收益、token处理量等实际统计数据。
文章预览
整理 | 褚杏娟
DeepSeek 开源周还未结束!今天,DeepSeek 官方继续发布动态,这次披露大规模部署成本和收益,又一次颠覆了很多人认知! V3/R1 架构由大量小 Expert 组成,这与其它主流模型差别非常大,导致其它主流模型结构开发的系统不再有效,要达到最好的效率就必须按照 DeepSeek 报告描述的方法。而 DeepSeek 开源周的五连发已经把主要模块开源出来了,降低了社区复现的难度。 根据 DeepSeek 披露,按照 R1 token 定价,该公司一天的总收入为 562,027 美元,成本利润率 545%。有网友评价,“如果利润率达不到 DeepSeek 的水平,就说明自家的 Infra 团队菜。” 实际上就在前两天,DeepSeek 宣布即日起在北京时间每日 00:30 至 08:30 的夜间空闲时段,大幅下调 API 调用价格,其中 DeepSeek-V3 降至原价的 50%,DeepSeek-R1 降幅最高达 75%。DeepSeek 多次说过自家的 API 不赔本
………………………………