专栏名称: 天池大数据科研平台

天池，基于阿里云的开放数据处理服务ODPS，面向学术界开放海量数据和分布式计算资源，旨在打造“数据众智、众创”第一平台。在这里，人人都可以玩转大数据，共同探索数据众创新模式。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepSeek开源放大招：FlashMLA让算力狂飙！曝光低成本秘笈

天池大数据科研平台 · 公众号 · 大数据 · 2025-02-25 11:26

文章预览

本文转载来源：新智元公众号，不代表官方立场 DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，特别针对变长序列进行了优化，目前已正式投产使用。经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。开源地址：https://github.com/deepseek-ai/FlashMLA 当前已经发布的内容为：对BF16精度的支持块大小为64的分页KV缓存团队在致谢部分表示，FlashMLA的设计参考了FlashAttention-2、FlashAttention-3以及CUTLASS的技术实现。有网友对此表示，「DeepSeek王炸开局，FlashMLA是真正能加速AGI进程的」。快速入门首先，需要打开终端，输入下面代码安装setup.py文件：这是一个基于Python的安装命令，用于编译和安装FlashMLA模块，确保其高效运行于特定硬件。 py ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博