今天看啥  ›  专栏  ›  架构师带你玩转AI

一文搞懂DeepSeek - 多头注意力(MHA)和多头潜在注意力(MLA)

架构师带你玩转AI  · 公众号  ·  · 2025-02-05 21:30
    

文章预览

DeepSeek-V3的基本架构 仍然基于Transformer框架, 为了实现 高效推理和经济高效的训练 ,DeepSeek-V3还采用了 MLA(多头潜在注意力) 。 MHA(多头注意力)通过 多个注意力头并行工作捕捉序列特征,但面临高计算成本和显存占用 ;MLA(多头潜在注意力)则通过 低秩压缩优化键值矩阵,降低显存占用并提高推理效率 。 一、 多头注意力(MHA) 多头注意力( Multi-Head Attention ,MHA )是什么? 多头注意力(MHA)是Transformer模型架构中的一个核心组件,它允许模型在 处理输入序列时能够同时关注来自不同位置的不同表示子空间的信息 。 MHA通过将输入向量分割成多个并行的注意力“头”,每个头独立地计算注意力权重并产生输出,然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。 多头注意力(MHA) 如何进行Q、K、V计算 ? 多头注意力(MH ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览