天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
今天看啥  ›  专栏  ›  天池大数据科研平台

DeepSeek开源放大招:FlashMLA让算力狂飙!曝光低成本秘笈

天池大数据科研平台  · 公众号  · 大数据  · 2025-02-25 11:26
    

文章预览

本文转载来源:新智元公众号,不代表官方立场 DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。 这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。 经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。 开源地址:https://github.com/deepseek-ai/FlashMLA 当前已经发布的内容为: 对BF16精度的支持 块大小为64的分页KV缓存 团队在致谢部分表示,FlashMLA的设计参考了FlashAttention-2、FlashAttention-3以及CUTLASS的技术实现。 有网友对此表示,「DeepSeek王炸开局,FlashMLA是真正能加速AGI进程的」。 快速入门 首先,需要打开终端,输入下面代码 安装setup.py文件: 这是一个基于Python的安装命令,用于编译和安装FlashMLA模块,确保其高效运行于特定硬件。 py ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览