专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

刚刚，DeepSeek开源DeepEP通信库，千亿MoE训推颠覆级创新！FP8狂飙，带飞GPU

新智元 · 公众号 · AI · 2025-02-25 11:38

主要观点总结

本文介绍了DeepSeek开源的第二弹产品DeepEP的特点和用法，包括其在AI领域的创新方式和潜在影响。DeepEP是一个专为混合专家系统（MoE）和专家并行（EP）设计的通信库，具有高吞吐量和低延迟的GPU全互联内核。它支持NVLink和RDMA高吞吐量内核用于训练和推理预填充，以及低延迟推理解码内核。

关键观点总结

关键观点1: DeepEP的特点

DeepEP是一个专为混合专家系统和专家并行设计的通信库，具有高吞吐量和低延迟的GPU全互联内核。它支持NVLink和RDMA技术，可用于加速训练和推理任务。DeepEP还包括一系列针对延迟敏感任务的纯RDMA实现的内核，以及基于回调机制的通信-计算重叠方法。

关键观点2: DeepEP的安装和环境要求

DeepEP的安装需要NVIDIA的Hopper GPU、Python 3.8及以上版本、CUDA 12.3及以上版本和PyTorch 2.1及以上版本。此外，还需要NVSHMEM依赖，详细步骤可参考NVSHMEM安装指南。

关键观点3: DeepEP的使用示例

文章提供了使用DeepEP进行模型训练或推理预填充的示例代码，包括调度（dispatch）和组合（combine）功能的实现。此外，还介绍了低延迟内核在推理解码应用中的使用方法。

关键观点4: DeepEP的性能表现和网络配置

DeepEP已在InfiniBand网络上完成全面测试，并展示了良好的性能表现。它还支持自适应路由和拥塞控制等网络配置，可根据不同的应用场景进行优化。

文章预览

新智元报道编辑：编辑部【新智元导读】 DeepSeek开源第二弹如期而至。这一次，他们把MoE训推EP通信库DeepEP开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。刚刚，DeepSeek放出了开源第二弹——DeepEP！它拥有高效优化的all-to-all通信，并具有以下特点：内部节点和节点间均支持NVLink和RDMA 高吞吐量内核用于训练和推理预填充低延迟推理解码内核本地FP8调度支持可灵活控制的GPU资源，用于计算-通信重叠具体来说，DeepEP是一个专为混合专家系统（MoE）和专家并行（EP）设计的通信库。它提供高吞吐量和低延迟的GPU全互联内核，也被称为MoE的「调度」和「组合」操作。该库还支持低精度运算，包括FP8格式。 DeepEP开源不过一个小时，GitHub星标冲破1.5k，还在飚速增长。项目地址：https://github.com/deepseek-ai/DeepEP 为了配合DeepSeek-V3论文中提出 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博