DeepSeek-R2曝5月前上线！第三弹DeepGEMM 300行代码暴击专家优化内核

数据派THU · 公众号 · 大数据 · 2025-02-27 18:00

文章预览

来源：新智元本文约3000字，建议阅读 5 分钟 DeepSeek开源第三弹，是支持稠密和MoE模型的FP8计算库——DeepGEMM，支持V3/R1训推。仅凭300行代码，就超过了专家优化的内核。开发者惊叹：DeepSeek有最好的GPU工程师，仿佛拥有某种编译器黑魔法！更令人兴奋的是，DeepSeek-R2有望在5月前提前发布。近期，DeepSeek发布了DeepGEMM。这是一个支持稠密和MoE模型的FP8 GEMM（通用矩阵乘法）计算库，可为V3/R1的训练和推理提供强大支持。仅用300行代码，DeepGEMM开源库就能超越专家精心调优的矩阵计算内核，为AI训练和推理带来史诗级的性能提升！ DeepGEMM库具有以下特征：在Hopper GPU上实现高达1350+ FP8 TFLOPS的算力极轻量级依赖，代码清晰易懂完全即时编译，即用即跑核心逻辑仅约300行代码，却在大多数矩阵规模下超越专家级优化内核同时支持密集布局和两种MoE布 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博