稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

机器之心 · 公众号 · AI · 2025-02-24 16:37

主要观点总结

本文介绍了华为诺亚方舟实验室发布的全新ESA算法，该算法通过稀疏化注意力的创新设计，突破了大模型在长文本处理中的瓶颈。ESA算法实现了数倍序列长度的拓展，并引入了动态计算范式，结合邻域影响力有效避免了单纯选择top-ranked token所带来的性能损失。该算法在高效外推、选择性注意力和实验评估等方面都有显著的优势，能够在长序列任务中带来全新的可能性。

关键观点总结

关键观点1: ESA算法简介

华为诺亚方舟实验室发布了一种全新的算法，名为ESA（Efficient Selective Attention），旨在解决大模型在长文本处理中的瓶颈问题。

关键观点2: ESA算法核心特性

ESA算法通过稀疏化注意力的设计，实现了对关键token的精确选择，提升了长序列处理效率的同时，也提升了计算性能。其创新点在于结合邻域影响力，通过动态选择最重要的token来计算注意力，降低了计算复杂度。

关键观点3: ESA算法的应用与挑战

ESA算法的应用场景包括长序列模型推理、大语言模型等。随着序列长度的增加，注意力计算的复杂度呈平方级增长，这使得高效且准确的长序列推理成为一大挑战。ESA算法通过选择性注意力和低维压缩等技术，实现了在这一背景下的创新外推解决方案。

关键观点4: ESA算法的实验结果

实验评估表明，ESA算法能够有效处理长度为训练长度4倍甚至25倍的各种长序列任务。在多个公开的长序列基准测试中，ESA算法的性能表现优异，尤其是在multi needles检索场景下。

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 当 DeepSeek 的 NSA 与月之暗面的 MoBA 以稀疏注意力掀起长序列技术热潮，行业对 “效率革命” 的追逐迎来关键一跃 —— 华为诺亚方舟实验室正式发布全新 ESA 算法（Efficient Selective Attention）。论文地址：https://arxiv.org/pdf/2502.14477 通过稀疏化注意力的创新设计，ESA 突破了大模型在长文本处理中的瓶颈。ESA 不仅实现了数倍序列长度的拓展，还引入独创的动态计算范式，结合邻域影响力有效避免了单纯选择 top-ranked token 所带来的性能损失。通过对关键 token 的精确选择，ESA 在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博