文章预览
Abstract 稀疏注意力能有效缓解大型语言模型(LLM)在长上下文中的显著内存和吞吐量需求。现有方法通常采用统一的稀疏注意力 Mask ,在不同注意力头和输入长度上应用相同的稀疏模式。然而,这种统一的方法未能捕捉到LLM中固有的多样化注意力模式,忽略了它们在准确性和延迟之间的不同权衡。为了应对这一挑战,作者提出了混合注意力(MoA),它自动为不同的头和层定制独特的稀疏注意力配置。MoA构建并导航了各种注意力模式及其相对于输入序列长度的缩放规则的搜索空间。它对模型进行剖析,评估潜在的配置,并确定最佳的稀疏注意力压缩计划。MoA适应不同的输入大小,发现一些注意力头扩展其关注范围以适应更长的序列,而其他头始终专注于固定长度的局部上下文。实验显示,MoA在相同的平均注意力跨度下,将有效上下文长度提高了 ,在
………………………………