专栏名称: 都市频道
河南电视新闻门户,好剧地标。 河南电视台都市频道官方微信平台。
今天看啥  ›  专栏  ›  都市频道

DeepSeek发文,首次披露!

都市频道  · 公众号  · 科技创业 科技自媒体  · 2025-03-01 16:39
    

主要观点总结

DeepSeek在知乎开设官方账号发布《DeepSeek-V3/R1推理系统概览》一文,公布了其推理系统的优化目标以及为实现这些目标所采取的方案。文章详细介绍了如何使用大规模跨节点专家并行(EP)来增加批量大小、隐藏传输耗时以及进行负载均衡的技术细节。此外,文章还披露了DeepSeek的理论成本和利润率的计算方式,包括假定成本和收入情况。同时,文章内容还涵盖了郑州地铁2号线与城郊线运行时间的变化、余华英被执行死刑以及金价跳水的相关信息。

关键观点总结

关键观点1: DeepSeek-V3/R1推理系统的优化目标及方案

DeepSeek在知乎发布的技术文章介绍了其推理系统的优化目标为提升吞吐和降低延迟,为此采用了大规模跨节点专家并行(EP)方案,但也增加了系统复杂性。文章详细阐述了如何使用EP进行批量大小的增长、隐藏传输耗时以及负载均衡的实现。

关键观点2: DeepSeek的理论成本和利润率的披露

文章率先披露了DeepSeek的理论成本和利润率的关键信息,包括假定的GPU租赁成本、一天的总收入和成本利润率的计算。

关键观点3: 其他相关信息的涵盖

文章内容除了技术细节外,还涉及了郑州地铁2号线与城郊线运行时间的变化、余华英被执行死刑以及金价跳水的相关信息。


文章预览

3月1日,DeepSeek于知乎开设官方账号,发布《DeepSeek-V3/R1推理系统概览》技术文章, 首次公布模型推理系统优化细节,并披露成本利润率关键信息。 文章写道:“DeepSeek-V3 / R1推理系统的优化目标是:更大的吞吐,更低的延迟。”为实现这两个目标,DeepSeek的方案是使用大规模跨节点专家并行(EP),但该方案也增加了系统复杂性。文章的主要内容就是关于如何使用EP增长批量大小(batch size)、隐藏传输耗时以及进行负载均衡。 文章还率先披露了DeepSeek的理论成本和利润率等关键信息。 “假定GPU租赁成本为2美金/小时,总成本为$87,072/天。……如果所有 tokens全部按照DeepSeek R1的定价计算,理论上一天的总收入为$562,027,成本利润率545%。” 来源:第一财经 往/期/回/顾 雨雪+大风!郑州地铁2号线与城郊线运行时间有变 余华英被执行死刑! 金价大跳水 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览