文章预览
今天,在追求性能极致的路上,DeepSeek 又祭出新神器—— 专为 MoE 模型打造的 DeepEP 通信库。 昨天主打干崩推理性能,今天双管齐下,训练和推理一起拿下,依旧是所到之处寸草不生的野蛮收割。 (PS:这还是我印象里的以天下为公的谦谦君子版 deepseek 么,这两天开源直接变身不择手段的性能狂魔) 这次开源的是—— DeepEP,是首个用于 MoE 模型训练和推理的开源 EP 通信库,用于训练和推理的高吞吐量和低延迟 依旧是先说结论: 实现高效的 all-to-all 通信 提供 高吞吐 (NVLink + RDMA)与 低延迟 (纯 RDMA)两套通信内核,兼顾大批量训练与实时推理场景。 支持 NVLink 和 RDMA 的 节点内 / 跨节点 通信。 提供 SM 数量控制接口,可在计算与通信之间灵活分配 GPU 资源。 集成可以重叠通信和计算的 hook 机制,允许在解码时后台并行接收数据,不占用任何 SM
………………………………