DeepSeek革命性NSA注意力机制问世！梁文锋上阵，长文本推理能力飙升

数据派THU · 公众号 · 大数据 · 2025-02-20 17:00

文章预览

来源：新智元本文约6000字，建议阅读 5 分钟 DeepSeek官方再发布新论文！在这篇论文中，来自DeepSeek、北大和华盛顿大学的研究人员提出了一种全新的注意力机制NSA。具体来说，它是一种面向硬件且支持原生训练的稀疏注意力机制（Sparse Attention），专为超快长上下文训练与推理设计。其核心组成包括—— 动态分层稀疏策略粗粒度的token压缩细粒度的token选择通过针对现代硬件的优化设计，NSA（原生可训练稀疏注意力机制）在保证性能的同时显著提升了推理速度，并有效降低了预训练成本。在通用基准测试、长文本处理以及基于指令的推理任务中，它的表现均能达到甚至超越传统全注意力（Full Attention）模型的水平。值得一提的是，DeepSeek创始人梁文锋这次不仅亲自上阵，并且还亲自提交了论文。论文地址：https://arxiv.org/abs/2502.11089 目前，这成 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博