文章预览
本文转载来源:新智元公众号,不代表官方立场 DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。 这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。 经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。 开源地址:https://github.com/deepseek-ai/FlashMLA 当前已经发布的内容为: 对BF16精度的支持 块大小为64的分页KV缓存 团队在致谢部分表示,FlashMLA的设计参考了FlashAttention-2、FlashAttention-3以及CUTLASS的技术实现。 有网友对此表示,「DeepSeek王炸开局,FlashMLA是真正能加速AGI进程的」。 快速入门 首先,需要打开终端,输入下面代码 安装setup.py文件: 这是一个基于Python的安装命令,用于编译和安装FlashMLA模块,确保其高效运行于特定硬件。 py
………………………………