专栏名称: 硅星GenAI

比一部分人更先进入GenAI。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepSeek开源周Day 3：DeepGEMM——300行代码性能飙升2.7倍，比英伟达更懂如何优化英伟达？

硅星GenAI · 公众号 · 科技创业科技自媒体 · 2025-02-26 13:24

主要观点总结

DeepSeek开源的DeepGEMM库实现了超越专家级优化的矩阵乘法，利用Hopper GPU达到了惊人的计算速度。DeepGEMM采用简洁的设计，仅300行代码，但性能可与专家调优的内核相媲美。文章介绍了DeepGEMM的性能测试结果，核心优化策略，以及引起的广泛关注和评价。

关键观点总结

关键观点1: DeepGEMM实现超越专家级优化的矩阵乘法

DeepGEMM利用Hopper GPU的惊人速度实现了高效的矩阵乘法，不仅在性能上超越了专家调优的内核，而且采用了简洁的设计。

关键观点2: DeepGEMM的性能表现

DeepGEMM在性能测试中表现出色，特别是在小批量处理的情况下，加速比高达2.7倍。对于混合专家模型和大批量处理，DeepGEMM也提供了稳定的性能提升。

关键观点3: DeepGEMM的核心优化策略

DeepGEMM采用了多项优化技术，包括使用CUTLASS设计中的线程束专用架构、Warp专用内核、张量内存加速器（TMA）等，以提高计算效率和GPU利用率。

关键观点4: DeepGEMM引起的关注和评价

DeepGEMM的发布引起了广泛的关注和积极的评价，人们普遍认为其在矩阵运算中的性能表现超出预期，特别是在高效性和简洁性方面。一些行业观察人士表示，这是通过系统团队串联上下游进行协同优化的典范。

文章预览

作者｜周一笑邮箱｜ zhouyixiao@pingwest.com DeepSeek开源周第三弹来了。仅用300行代码就实现超越专家级优化的矩阵乘法？DeepSeek开源的DeepGEMM做到了，不仅在Hopper GPU上飙出1350 TFLOPS的惊人速度，还实现了教科书般简洁。 DeepGEMM是一个一个支持密集和MoE GEMM的FP8GEMM库，为V3/R1训练和推理提供支持。它的核心亮点包括： Hopper GPU上最高可达1350+ FP8 TFLOPS 没有过多的依赖，像教程一样简洁完全即时编译核心逻辑约为300行 - 但在大多数矩阵大小上均优于专家调优的内核支持密集布局和两种MoE布局通俗来说，DeepGEMM就像是一个超高效的计算工具，专门用于大模型中最常见的数学运算：矩阵乘法。它的特别之处在于使用了FP8（8位浮点数）格式，这种格式可以大大提高计算速度和内存效率，但通常会损失一些精度。DeepGEMM通过精细的缩放技术解决了精度问题，让计 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

网信西藏 · 今天，成绩可以查询啦！

9 小时前

网信西藏 · 今天，成绩可以查询啦！

9 小时前

数字生命卡兹克 · 阿里深夜开源万相2.1，这是AI视频领域的DeepSeek啊。

15 小时前

数字生命卡兹克 · 阿里深夜开源万相2.1，这是AI视频领域的DeepSeek啊。

15 小时前

校长看广州楼市 · 星河臻华府来势汹汹！科学城二手房业主胆战心惊......

21 小时前

校长看广州楼市 · 星河臻华府来势汹汹！科学城二手房业主胆战心惊......

21 小时前

创业家 · 牛文文：DeepSeek席卷全球，给所有创业者带来两点启示

昨天

江苏新闻广播 · 阿里，突传大消息！

2 天前

江苏新闻广播 · 阿里，突传大消息！

2 天前

中国信通院CAICT · 薪火相传点亮数字未来！中国信通院30周年青年成果报告会在京举办

9 月前

研之成理 · 谢在库院士团队：孔口催化促进Pt/ZSM-5双功能催化剂上正己烷加氢异构化

6 月前

赛博汽车 · 赛力斯超百亿入股引望，华为车BU家底儿曝光

6 月前

上海松江 · 中山街道新增多台AED体外除颤仪，具体点位分布来了

4 月前

慎思行 · 2025年全球咨询业热点：企业应向何处投资？

1 周前