专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

DeepSeek革命性NSA注意力机制问世!梁文锋上阵,长文本推理能力飙升

数据派THU  · 公众号  · 大数据  · 2025-02-20 17:00
    

文章预览

来源:新智元 本文 约6000字 ,建议阅读 5 分钟 DeepSeek官方再发布新论文! 在这篇论文中,来自DeepSeek、北大和华盛顿大学的研究人员提出了一种全新的注意力机制NSA。 具体来说,它是一种面向硬件且支持原生训练的稀疏注意力机制(Sparse Attention),专为超快长上下文训练与推理设计。其核心组成包括—— 动态分层稀疏策略 粗粒度的token压缩 细粒度的token选择 通过针对现代硬件的优化设计,NSA(原生可训练稀疏注意力机制)在保证性能的同时显著提升了推理速度,并有效降低了预训练成本。 在通用基准测试、长文本处理以及基于指令的推理任务中,它的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平。 值得一提的是,DeepSeek创始人梁文锋这次不仅亲自上阵,并且还亲自提交了论文。 论文地址:https://arxiv.org/abs/2502.11089 目前,这成 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览