专栏名称: APPSO
让智能手机更好用的秘密。
今天看啥  ›  专栏  ›  APPSO

一文看懂 DeepSeek 开源项目第三弹,300 行代码揭示 V3/R1 推理效率背后的关键

APPSO  · 公众号  · app  · 2025-02-26 10:51
    

文章预览

开源周进行到第三天,DeepSeek 不仅带来了技术,还传出 R2 在路上的好消息。 作为用户,一边见识着 DeepSeek 抛出来的一个个技术库,还能看到应用了这些技术的模型,怎么不算一种见证巨星的诞生。 今天出场的是 DeepGEMM,是一个专为干净、高效的 FP8 通用矩阵乘法 (GEMM) 而设计的库,具有细粒度缩放功能。 如 DeepSeek-V3 中所述,它支持普通和混合专家 (MoE) 分组 GEMM。该库用 CUDA 编写,在安装过程中无需编译,而是使用轻量级即时 (JIT) 模块在运行时编译所有内核。 没有说 DeepSeek 不厉害的意思,但这三天的开源都能看出,即便背靠幻方,他们始终不像大厂那样资源雄厚, 必须在压榨计算资源方面狠下功夫。 包括这次的 GeepGEMM 仍然没有离开这个主旋律,相比于之前的技术,DeepGEMM 的优势在于: 更高的效率:通过 FP8 和两级累积降低了计算和内存开销 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览