今天看啥  ›  专栏  ›  AI科技评论

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

AI科技评论  · 公众号  ·  · 2025-02-19 18:25
    

文章预览

DeepSeek 革命性 NSA 注意力机制问世。 作者丨郑佳美 编辑丨马晓宁 2 月 18 日,马斯克发布 Grok 3 的热度还没过去,梁文锋就作为 co-authors 带着 DeepSeek 研究团队杀了回来。 公布新研究的推文发布不到 3 个小时,就带来了三十多万的浏览量,火爆程度不逊 OpenAI。 而这次 DeepSeek 团队最新的研究论文更是重磅,论文中介绍了一种全新的,可用于超快速的长上下文训练与推理的注意力机制 —— NSA,值得一提的是,NSA 还具有与硬件对齐的特点,十足的硬件友好。 论文中提到的 NSA 核心组成主要包括三点:分别是 动态分层稀疏策略 、 粗粒度的 token 压缩 以及 细粒度的 token 选择 。有了这三点核心技术的加持,就能够在有效降低预训练成本的情况下,同时显著提升推理速度,特别是在解码阶段实现了高达 11.6 倍的提升。 更让人感到眼前一亮的是, DeepSeek 创始 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览