专栏名称: 华尔街见闻
追踪全球财经热点,精选影响您财富的资讯,投资理财必备神器!
今天看啥  ›  专栏  ›  华尔街见闻

梁文锋亲自参与,DeepSeek发重磅论文

华尔街见闻  · 公众号  · 财经  · 2025-02-19 12:33
    

文章预览

当马斯克高调推出 基于20万块GPU集群的Grok-3 、Sam Altman在开源策略上反复权衡之际,DeepSeek悄然发布了一项可能改变游戏规则的技术。 2月18日,DeepSeek CEO 公布了一项由梁文锋亲自参与的研究论文成果——原生稀疏注意力(Native Sparse Attention, NSA)机制。 这是DeepSeek团队在稀疏注意力领域的创新性工作,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。 DeepSeek论文显示, NSA不仅将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现性能反超传统全注意力模型 。在全球AI竞赛转向"硬核创新"的当口,这家低调的中国公司展示了技术破局的新范式。 值得注意的是,NSA尚未应用于DeepSeek V3的训练中。 这意味着,如果后续DeepSeek将NSA整合到模型训练中,其基座模型的能力有望实现显著提升。 论文中明确指出:“使用NSA预 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览