专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

刚刚,DeepSeek开源DeepEP通信库,千亿MoE训推颠覆级创新!FP8狂飙,带飞GPU

新智元  · 公众号  · AI  · 2025-02-25 11:38
    

主要观点总结

本文介绍了DeepSeek开源的第二弹产品DeepEP的特点和用法,包括其在AI领域的创新方式和潜在影响。DeepEP是一个专为混合专家系统(MoE)和专家并行(EP)设计的通信库,具有高吞吐量和低延迟的GPU全互联内核。它支持NVLink和RDMA高吞吐量内核用于训练和推理预填充,以及低延迟推理解码内核。

关键观点总结

关键观点1: DeepEP的特点

DeepEP是一个专为混合专家系统和专家并行设计的通信库,具有高吞吐量和低延迟的GPU全互联内核。它支持NVLink和RDMA技术,可用于加速训练和推理任务。DeepEP还包括一系列针对延迟敏感任务的纯RDMA实现的内核,以及基于回调机制的通信-计算重叠方法。

关键观点2: DeepEP的安装和环境要求

DeepEP的安装需要NVIDIA的Hopper GPU、Python 3.8及以上版本、CUDA 12.3及以上版本和PyTorch 2.1及以上版本。此外,还需要NVSHMEM依赖,详细步骤可参考NVSHMEM安装指南。

关键观点3: DeepEP的使用示例

文章提供了使用DeepEP进行模型训练或推理预填充的示例代码,包括调度(dispatch)和组合(combine)功能的实现。此外,还介绍了低延迟内核在推理解码应用中的使用方法。

关键观点4: DeepEP的性能表现和网络配置

DeepEP已在InfiniBand网络上完成全面测试,并展示了良好的性能表现。它还支持自适应路由和拥塞控制等网络配置,可根据不同的应用场景进行优化。


文章预览

   新智元报道   编辑:编辑部 【新智元导读】 DeepSeek开源第二弹如期而至。这一次,他们把MoE训推EP通信库DeepEP开源了,支持FP8专为Hopper GPU设计,低延迟超高速训练推理。 刚刚,DeepSeek放出了开源第二弹——DeepEP! 它拥有高效优化的all-to-all通信,并具有以下特点: 内部节点和节点间均支持NVLink和RDMA 高吞吐量内核用于训练和推理预填充 低延迟推理解码内核 本地FP8调度支持 可灵活控制的GPU资源,用于计算-通信重叠 具体来说,DeepEP是一个专为混合专家系统(MoE)和专家并行(EP)设计的通信库。 它提供高吞吐量和低延迟的GPU全互联内核,也被称为MoE的「调度」和「组合」操作。该库还支持低精度运算,包括FP8格式。 DeepEP开源不过一个小时,GitHub星标冲破1.5k,还在飚速增长。 项目地址:https://github.com/deepseek-ai/DeepEP 为了配合DeepSeek-V3论文中提出 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览