专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

量子位  · 公众号  · AI  · 2025-02-19 13:19
    

主要观点总结

DeepSeek新提出的注意力机制NSA引发讨论热潮。该机制旨在解决大模型上下文建模中计算成本高昂的问题,实验表明其能显著提高前向传播、反向传播和解码速度。论文介绍了NSA的核心方法,包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择等。研究人员用包含知识、推理和编码能力的多个通用基准测试验证了NSA的有效性。

关键观点总结

关键观点1: 新注意力机制NSA被提出

为了解决大模型上下文建模中计算成本高昂的问题,DeepSeek提出了名为NSA的可原生训练的稀疏注意力机制。

关键观点2: NSA的实验结果显著

实验表明,NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速,其中前向传播速度最高可提升9倍,反向传播速度最高可提升6倍,解码速度提升可达11.6倍。

关键观点3: NSA的核心方法

NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。这些方法旨在减少计算量的同时,避免信息丢失,使模型在处理长序列时既高效又精准。

关键观点4: NSA的有效性得到验证

在包含知识、推理和编码能力的多个通用基准测试中,与全注意力模型相比,NSA模型性能不降反超,验证了NSA的有效性。

关键观点5: 评选报名活动

关于2025年值得关注的AIGC企业与产品的评选正在进行,结果将于4月中国AIGC产业峰会上公布。


文章预览

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道—— 那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是 压缩计算和推理成本 。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为 NSA (Native Sparse Attention)。 目的很明确:解决大模型上下文建模中,标准注意力机制造成的计算成本高昂的问题。 效果也很明显: 实验表明,在解码64k上下文时,基于softmax架构的注意力计算占到总延迟的70%-80%。而在不影响性能的前提下,NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速。 其中 前向传播速度最高可提升9倍,反向传播速度最高可提升6倍,解码速度提升可达11.6倍 。 正如不少网友提到的,NSA意味着DeepSeek找到了优化注意力的方法,可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览