今天看啥  ›  专栏  ›  大白聊IT

大神!在开座谈会的空隙还发表了篇论文,DeepSeek突破长难文,最高提速11.6倍!

大白聊IT  · 公众号  ·  · 2025-02-19 12:58
    

文章预览

中生代大白 读完需要 3 分钟 速读仅需 1 分钟     在 2025 年 2 月 17 日的民营企业座谈会间隙, DeepSeek 团队发布了一篇论文,介绍了新的注意力机制 NSA(Natively Sparse Attention,原生稀疏注意力机制)。这一机制专为长文本训练与推理设计,显著优化了传统 AI 模型在训练和推理过程中的表现,特别是提升了长上下文的推理能力。 DeepSeek创始人兼CEO梁文峰亲自参与了这项研究,并出现在论文的作者名单中,位列倒数第二。这显示了他作为项目管理者的深度参与。论文的第一作者Jingyang Yuan是在实习期间完成的这项研究     论文内容与创新 动态分层稀疏策略: NSA 结合了粗粒度的 Token 压缩和细粒度的 Token 选择,既保证全局上下文感知,又兼顾局部信息的精确性。这种策略通过将大块的 Token 聚合为更紧凑的表示,捕获全局模式,同时从序列中选择最重要的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览