DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

量子位 · 公众号 · AI · 2025-02-19 13:19

主要观点总结

DeepSeek新提出的注意力机制NSA引发讨论热潮。该机制旨在解决大模型上下文建模中计算成本高昂的问题，实验表明其能显著提高前向传播、反向传播和解码速度。论文介绍了NSA的核心方法，包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择等。研究人员用包含知识、推理和编码能力的多个通用基准测试验证了NSA的有效性。

关键观点总结

关键观点1: 新注意力机制NSA被提出

为了解决大模型上下文建模中计算成本高昂的问题，DeepSeek提出了名为NSA的可原生训练的稀疏注意力机制。

关键观点2: NSA的实验结果显著

实验表明，NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速，其中前向传播速度最高可提升9倍，反向传播速度最高可提升6倍，解码速度提升可达11.6倍。

关键观点3: NSA的核心方法

NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。这些方法旨在减少计算量的同时，避免信息丢失，使模型在处理长序列时既高效又精准。

关键观点4: NSA的有效性得到验证

在包含知识、推理和编码能力的多个通用基准测试中，与全注意力模型相比，NSA模型性能不降反超，验证了NSA的有效性。

关键观点5: 评选报名活动

关于2025年值得关注的AIGC企业与产品的评选正在进行，结果将于4月中国AIGC产业峰会上公布。

文章预览

鱼羊发自凹非寺量子位 | 公众号 QbitAI DeepSeek新注意力机制论文一出，再次引爆讨论热度。依然是熟悉的画风，熟悉的味道—— 那边马斯克疯狂烧了20万张卡训出Grok 3，这厢DeepSeek重点关注的依然是压缩计算和推理成本。具体来说，新论文提出了一种可原生训练的稀疏注意力机制，名为 NSA （Native Sparse Attention）。目的很明确：解决大模型上下文建模中，标准注意力机制造成的计算成本高昂的问题。效果也很明显：实验表明，在解码64k上下文时，基于softmax架构的注意力计算占到总延迟的70%-80%。而在不影响性能的前提下，NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速。其中前向传播速度最高可提升9倍，反向传播速度最高可提升6倍，解码速度提升可达11.6倍。正如不少网友提到的，NSA意味着DeepSeek找到了优化注意力的方法，可 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

每天学点HR · 刚刚！马斯克，重大宣布！

10 小时前

每天学点HR · 刚刚！马斯克，重大宣布！

10 小时前

机器之心 · 重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

昨天

爱可可-爱生活 · 【R1-Nature：在小模型上复现R1推理能力，探索强推理的核-20250220140907

昨天

爱可可-爱生活 · 【[15星]OctoTools：一个无需训练、易于扩展的智能工具-20250220141238

昨天

爱可可-爱生活 · 【[90星]Lisa：一个用现代Common Lisp编写的高质-20250219222540

昨天

直通硅谷 · 随时开课 | 数据科学求职1V1定制计划

7 月前

盖世汽车新能源 · 广汽能源发布“双万桩计划”，投建+销售实现三连倍增

1 月前

诗词天地 · 朗诵丨二月，面向阳光，岁月一路芬芳！

2 周前

审计芸 · 审计人必备！Excel数据秒级同步Word，附注更新再无烦恼

4 天前