梁文锋亲自挂名，DeepSeek 最新论文丢出注意力新机制，推理速度直线提升 11 倍

AI科技评论 · 公众号 · · 2025-02-19 18:25

文章预览

DeepSeek 革命性 NSA 注意力机制问世。作者丨郑佳美编辑丨马晓宁 2 月 18 日，马斯克发布 Grok 3 的热度还没过去，梁文锋就作为 co-authors 带着 DeepSeek 研究团队杀了回来。公布新研究的推文发布不到 3 个小时，就带来了三十多万的浏览量，火爆程度不逊 OpenAI。而这次 DeepSeek 团队最新的研究论文更是重磅，论文中介绍了一种全新的，可用于超快速的长上下文训练与推理的注意力机制 —— NSA，值得一提的是，NSA 还具有与硬件对齐的特点，十足的硬件友好。论文中提到的 NSA 核心组成主要包括三点：分别是动态分层稀疏策略、粗粒度的 token 压缩以及细粒度的 token 选择。有了这三点核心技术的加持，就能够在有效降低预训练成本的情况下，同时显著提升推理速度，特别是在解码阶段实现了高达 11.6 倍的提升。更让人感到眼前一亮的是， DeepSeek 创始 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博