专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

DeepSeek-R2曝5月前上线!第三弹DeepGEMM 300行代码暴击专家优化内核

数据派THU  · 公众号  · 大数据  · 2025-02-27 18:00
    

文章预览

来源:新智元 本文 约3000字 ,建议阅读 5 分钟 DeepSeek开源第三弹,是支持稠密和MoE模型的FP8计算库——DeepGEMM,支持V3/R1训推。仅凭300行代码,就超过了专家优化的内核。开发者惊叹:DeepSeek有最好的GPU工程师,仿佛拥有某种编译器黑魔法!更令人兴奋的是,DeepSeek-R2有望在5月前提前发布。 近期,DeepSeek发布了DeepGEMM。 这是一个支持稠密和MoE模型的FP8 GEMM(通用矩阵乘法)计算库,可为V3/R1的训练和推理提供强大支持。 仅用300行代码,DeepGEMM开源库就能超越专家精心调优的矩阵计算内核,为AI训练和推理带来史诗级的性能提升! DeepGEMM库具有以下特征: 在Hopper GPU上实现高达1350+ FP8 TFLOPS的算力  极轻量级依赖,代码清晰易懂  完全即时编译,即用即跑  核心逻辑仅约300行代码,却在大多数矩阵规模下超越专家级优化内核  同时支持密集布局和两种MoE布 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览