文章预览
来源:新智元 本文 约3000字 ,建议阅读 5 分钟 DeepSeek开源第三弹,是支持稠密和MoE模型的FP8计算库——DeepGEMM,支持V3/R1训推。仅凭300行代码,就超过了专家优化的内核。开发者惊叹:DeepSeek有最好的GPU工程师,仿佛拥有某种编译器黑魔法!更令人兴奋的是,DeepSeek-R2有望在5月前提前发布。 近期,DeepSeek发布了DeepGEMM。 这是一个支持稠密和MoE模型的FP8 GEMM(通用矩阵乘法)计算库,可为V3/R1的训练和推理提供强大支持。 仅用300行代码,DeepGEMM开源库就能超越专家精心调优的矩阵计算内核,为AI训练和推理带来史诗级的性能提升! DeepGEMM库具有以下特征: 在Hopper GPU上实现高达1350+ FP8 TFLOPS的算力 极轻量级依赖,代码清晰易懂 完全即时编译,即用即跑 核心逻辑仅约300行代码,却在大多数矩阵规模下超越专家级优化内核 同时支持密集布局和两种MoE布
………………………………