专栏名称: 智源社区
【智源社区】是北京智源人工智能研究院打造的一个内行、开放的 AI 实名社区,致力于促进 AI 交流。
今天看啥  ›  专栏  ›  智源社区

DeepSeek公开NSA算法,长序列处理实现11.6 倍加速丨热门论文

智源社区  · 公众号  ·  · 2025-02-19 18:22
    

文章预览

近日,Deepseek创始人梁文锋团队发布技术论文, 提出“原生稀疏注意力”(Native Sparse Attention,NSA)算法 。 据悉,这是一种为硬件架构优化、支持端到端原生训练的稀疏注意力机制。 NSA 的稀疏注意力机制 ,能让AI 能以更智能的方式阅读,仅聚焦于关键情节,自动忽略无关细节。就像阅读小说或文章时,人类会本能地抓住关键信息,跳过次要内容。 论文提出将硬件优化与原生稀疏训练相结合的方法,是目前处理长序列 AI 任务最高效的解决方案之一。与传统的注意力模型不同,NSA 能与现代 AI 硬件良好配合,确保运行更快且不浪费资源。与许多仅关注推理的现有稀疏注意力方法不同,NSA 优化了整个 AI 训练过程,使其从头到尾更加高效。 论文中介绍, NSA 算法比全注意力模型的运行速度快了11.6倍 ,能够更快速、更经济地处理长序列。 论文标题:Nat ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览