刚刚，DeepSeek 首次披露成本利润率！还有大量技术细节

APPSO · 公众号 · app · 2025-03-01 13:48

主要观点总结

DeepSeek披露了其模型推理系统的成本利润率为545%，这得益于一系列技术优化。文章介绍了DeepSeek使用的技术，包括硬件配置的H800 GPU和动态资源调度等。DeepSeek针对场景采用不同的并行策略，并通过大规模跨节点专家并行技术提高效率。文章还指出，这些优化使DeepSeek在硬件受限的情况下也能实现出色的推理性能。

关键观点总结

关键观点1: DeepSeek模型推理系统的成本利润率

DeepSeek在保证服务质量的同时，通过一系列技术优化实现了极高的成本效益，其模型推理系统的成本利润率高达545%。

关键观点2: DeepSeek的技术优化细节

DeepSeek使用H800 GPU作为硬件配置，并保持与训练一致的FP8/BF16精度。通过动态资源调度，根据负载差异调整节点数量。成本数据显示，24小时内平均使用节点数量和成本，并给出每台H800的吞吐能力数据。

关键观点3: DeepSeek面临的挑战及解决方案

DeepSeek-V3/R1推理系统面临提高吞吐量和降低延迟两大挑战。通过采用大规模跨节点专家并行技术和MoE架构，实现了效率的提升。

关键观点4: 专家并行技术的解释

专家并行技术通过将不同特长的“厨师”分散到多个“厨房”（GPU）中，从而提高吞吐量并降低延迟。通过合理的并行策略和负载均衡策略，确保每个厨房的处理效率和整体性能的优化。

关键观点5: 开源精神与中国AI的发展

中国AI力量正在用开源精神推动技术的发展。DeepSeek的开源周活动展示了计算、通信、存储、算法与模型的协同创新。通过这些技术优化和创新，使得曾经需要天价算力的技术变得人人可用。

文章预览

当人们以为 DeepSeek 开源周已经结束，刚刚 DeepSeek 又掏出了 One More Thing ，首次披露了其模型推理系统的成本利润率：545%，这一惊人数字背后是一系列精心设计的技术优化。 DeepSeek 在保证服务质量的同时，实现了极高的成本效益：硬件配置：所有服务使用 H800 GPU，保持与训练一致的FP8/BF16精度动态资源调度：根据白天/夜间负载差异动态调整节点数量，最大化资源利用率成本数据：24 小时内平均使用 226.75 个节点（每节点8个H800），成本约 $87,072/天吞吐能力：每台 H800的 prefill 吞吐约 73.7k tokens/s，decode 吞吐约 14.8k tokens/s 利润率：按 DeepSeek R1 定价计算，理论日收入$562,027，成本利润率 545% DeepSeek-V3/R1 推理系统面临两大挑战：如何提高吞吐量和如何降低延迟。他们采用了大规模跨节点专家并行（Expert Parallelism/EP）技术。 DeepSeek-V3/R1 采用了MoE（混合专 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博