专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

DeepSeek开源周首日发布FlashMLA,将英伟达H800 GPU性能发挥到极致

DeepTech深科技  · 公众号  · 科技媒体  · 2025-02-24 11:15
    

文章预览

就在刚刚,DeepSeek 正式拉开“开源周”的序幕。 其在 GitHub 发布了开源项目 FlashMLA(Flash Multi-Layer Attention)。(https://github.com/deepseek-ai/FlashMLA) (来源:X) 这是一款专为英伟达 Hopper 架构 GPU 设计的高效多层注意力解码内核,能够提高大模型的推理速度。FlashMLA 不仅适配英伟达 H800,其所具备的分页缓存机制可以帮助国产芯片克服显存管理效率低的短板,推动端侧 AI 应用的普及。其核心目标是优化大模型的推理过程,尤其能在处理变长序列比如处理聊天对话和长文本生成时,显著提升吞吐量和响应速度。 对于传统大模型推理来说:首先,它存在显存带宽限制,即 KV 缓存(存储注意力机制中的键值对)占用大量显存,导致内存访问效率低下;其次,它的计算效率不足,即变长序列的动态处理需要频繁调整计算资源,因此难以充分利用 GPU 算力。 而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览