专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

量子位  · 公众号  · AI  · 2025-02-25 11:14
    

文章预览

衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 好消息如约而至,DeepSeek开源周第二弹来了! DeepEP , 第一个用于MoE模型训练和推理的开源EP通信库 (expert parallelism,专家并行) 。 它提供高吞吐量和低延迟的all-to-all GPU内核,也称为MoE dispatch和combine。 该库还支持低精度运算,包括FP8。 同时按惯例,开源协议用的是最为宽松的MIT。 今天的DeepSeek 选择了先在GitHub上线,然后再在官推发上新通知 。 不出所料,底下一片叫好: DeepSeek开源列车永不停止。 DeepEP性能如何? DeepSeek官推对DeepEP进行了要素提炼: 高效和优化的all-to-all通信 NVLink和RDMA的节点内和节点间支持 用于训练和推理预填充的高吞吐量内核 用于推理解码的低延迟内核 原生FP8调度支持 灵活的GPU资源控制,用于计算通信重叠 我们先来看看性能方面的两个重点。 (注:DeepEP中的实现可能与DeepSeek-V3论 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览