专栏名称: 华泰睿思
华泰证券研究所微信公众号,致力于为投资者提供研究团队的最新研究成果,推介优质研报,并预告最新的联合调研、专题会议等活动。
今天看啥  ›  专栏  ›  华泰睿思

华泰 | DeepSeek NSA:算法创新或加速训练与CUDA解耦

华泰睿思  · 公众号  · 证券  · 2025-02-21 07:11
    

主要观点总结

本文介绍了DeepSeek发布的论文NSA(原生稀疏注意力),该论文在Transformer架构的Attention环节进行了优化,提高了效率和速度。文章还讨论了国内外在大模型迭代思路上的差异,以及软硬件优化在LLM中的作用。最后,提醒了AI技术迭代和商业化落地的风险。

关键观点总结

关键观点1: DeepSeek发布论文NSA,优化Transformer架构的Attention环节。

NSA通过稀疏KV的方式提升效率,实现了6-12x的速度提升。

关键观点2: 国内外在大模型迭代思路上存在差异。

海外追求Top 1的极致模型性能,以充足的算力优势为主;国内则在算法和硬件上极致优化,以有限的算力追求更高的性能。

关键观点3: NSA在算法和硬件上的优化。

NSA不仅优化软件算法,还优化了硬件Kernel,以实现更高效的软硬件编排。按照分组注意力GQA进行Kernel的优化,并结合DeepSeek-V3进行硬件优化。

关键观点4: DeepSeek NSA与CUDA解耦的趋势。

DeepSeek在V3中使用了PTX来优化硬件算法,而NSA则使用Triton编程语言高效编写GPU代码。这显示出DeepSeek NSA有初步与CUDA解耦的趋势,为后续适配更多类型的算力芯片奠定基础。

关键观点5: 风险提示。

需要注意AI技术迭代和商业化落地的风险。如果AI技术迭代不及预期,AI应用功能进展和商业化节奏可能会受到影响。


文章预览

点击小程序查看研报原文 核心观点 DeepSeek发布论文NSA(原生稀疏注意力,Native Sparse Attention),继续在Transformer架构的重要环节——Attention进行优化,不仅在效果上和传统的Full Attention可比/领先,而且在解码、前向/后向传播上有6-12x的速度提升。结合xAI发布的Grok-3来看,目前海外和国内在大模型迭代思路上采取的是不同的思想,海外虽也引入MoE路线降低训练成本,但总体仍以充足的算力优势,追求Top 1的极致模型性能;而国内则在算法和硬件上极致优化,重点以有限的算力搏得更高的性能,追求推理效率。我们认为,两者并不冲突,而是共同从训练和推理两方面带动算力整体需求的提升。 NSA:继续优化Transformer Attention,通过稀疏KV的方式提升效率 与DeepSeek V2/V3用MLA(Multi-head Latent Attention)优化方向类似,NSA依然是在优化Attention上下功夫,以减少Attent ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览