专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

注意力机制的变体之MLA

瓦力算法学研所  · 公众号  ·  · 2024-09-26 08:00
    

文章预览

技术总结专栏 本文介绍注意力机制的变体-MLA。 MLA(Multi-head Latent Attention),是由杭州深度求索人工智能在DeepSeekV2提出的一种注意力机制变体。MLA主要旨在解决推理过程中由于attention机制中KV Cache占用过多内存而导致的性能瓶颈问题。为此,MLA引入了低秩KV压缩技术,有效减少了KV Cache的大小,从而缓解了这一问题。 有兴趣小伙伴可以看官方技术报告的介绍:https://arxiv.org/pdf/2405.04434v2 原理介绍 上图为MHA、GQA、MQA、MLA的原理对比图。从上图可知传统Transformer采用MHA,但KV Cache在推理过程中可能成为性能瓶颈。MQA和GQA虽然在一定程度上可以减少KV Cache的占用,但其效果通常不如MHA。MLA通过低秩的Key-Value联合压缩技术,不仅实现了比MHA更优的效果,还大幅减少了所需的KV Cache大小。 具体来说,MLA通过低秩联合压缩key和value来减少kv cache。从注意力机制的步骤 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览