专栏名称: 城市进化论
探寻城市路径,揭秘经济逻辑
今天看啥  ›  专栏  ›  城市进化论

DeepSeek开源第三弹:核心代码仅300行,榨干GPU!“宇宙最重要财报”明早来袭,英伟达能否顶得住?

城市进化论  · 公众号  ·  · 2025-02-26 23:48
    

文章预览

2月26日,DeepSeek宣布开源支持稠密和MoE模型的DeepGEMM(通用矩阵乘法)计算库,可为V3/R1模型的训练和推理提供强大支持。 图片来源:X DeepGEMM最大的特点就是简洁高效,仅有300行核心代码。但在性能上,DeepGEMM的表现非常出色,在某些情况下甚至能够超越专家精心调优的计算库,可以说是极致榨干GPU的性能潜力。 据介绍,DeepGEMM库具有以下特征: 1.同时支持密集布局和两种MoE(混合专家模型)布局; 2.使用CUDA(统一计算架构)编写,无需编译即可安装; 3.完全即时编译,即用即跑; 4.专为NVIDIA Hopper张量核心设计; 5.使用CUDA核心两级累加解决FP8张量核心累加不精确的问题。 GEMM是线性代数中的基本运算,是科学计算、机器学习、深度学习等领域中最常见的计算操作,也是许多高性能计算任务的核心。简单来说,它计算两个数据表格(矩阵)相乘的结 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览