大神！在开座谈会的空隙还发表了篇论文，DeepSeek突破长难文，最高提速11.6倍！

大白聊IT · 公众号 · · 2025-02-19 12:58

文章预览

中生代大白读完需要 3 分钟速读仅需 1 分钟在 2025 年 2 月 17 日的民营企业座谈会间隙， DeepSeek 团队发布了一篇论文，介绍了新的注意力机制 NSA（Natively Sparse Attention，原生稀疏注意力机制）。这一机制专为长文本训练与推理设计，显著优化了传统 AI 模型在训练和推理过程中的表现，特别是提升了长上下文的推理能力。 DeepSeek创始人兼CEO梁文峰亲自参与了这项研究，并出现在论文的作者名单中，位列倒数第二。这显示了他作为项目管理者的深度参与。论文的第一作者Jingyang Yuan是在实习期间完成的这项研究论文内容与创新动态分层稀疏策略： NSA 结合了粗粒度的 Token 压缩和细粒度的 Token 选择，既保证全局上下文感知，又兼顾局部信息的精确性。这种策略通过将大块的 Token 聚合为更紧凑的表示，捕获全局模式，同时从序列中选择最重要的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

刀法研究所 · 从「大冷门」到「卖断货」，呈白撬动小红书百万GMV之道

23 小时前

36氪汽车 · 36氪首发｜金钢科技获数千万元融资，瞄准机器人磁编码器市场

昨天

36氪汽车 · 36氪首发｜金钢科技获数千万元融资，瞄准机器人磁编码器市场

昨天

刀法研究所 · if椰子水要被中国人“喝”上市了！靠46人团队起家干到11亿，轻资产模式操作细节披露

昨天

刀法研究所 · 本周消费圈最重要的十件事：安踏收购狼爪、分众传媒拟收购新潮传媒、绝味食品年营收下降...| 刀法周报

3 天前

晚点LatePost · 淘宝宣布接入微信支付，“互联互通”，以开放拼效率

7 月前

中国医学论坛报今日肿瘤 · 进博速递丨《前列腺癌骨转移答案书》预发布，权威专家解码十大焦点问题，添彩健康中国

5 月前

游资研报 · 【绿源集团控股】技术壁垒构筑护城河，多轮驱动开启高速成长

2 周前