主要观点总结
本文主要围绕xAI推出的Grok3和DeepSeek发布的NSA原生稀疏注意力技术进行讨论,分析了两者在技术特点、应用场景和工程实现上的不同之处和各自的优势。文章还涉及了模型训练的未来趋势、工程规模和效率的探索、开源与闭源模型的对比,以及训练基座和RL双轮驱动的重要性等议题。
关键观点总结
关键观点1: NSA论文的核心思想
有效降低长上下文注意力的计算成本,是对去年5月MLA工作的补充,MLA和NSA在模型压缩方面有所不同。
关键观点2: NSA技术的应用前景
如果DeepSeek后续训练中整合NSA技术,可以预期其基座模型整体能力会有显著提升。
关键观点3: NSA论文的额外亮点
提到了使用NSA预训练的模型超过了全注意力模型,并且论文中提到的一些细节,如Triton的使用和对多种计算卡的适配性。
关键观点4: 工程规模和效率的探索
文章讨论了探索出理论上限后,接下来如何探索工程规模和效率的上限,以及不同训练方法在未来训练模型上的影响。
关键观点5: 开源与闭源模型的对比
讨论了开源模型与北美昂贵成本训练的闭源模型的对比,以及开源模型在持续开源和经济性上的可能性。
文章预览
就在xAI隆重推出20w卡集群产物Grok3的同时,DeepSeek选择临近时间扔出来一份重磅论文:NSA原生稀疏注意力。两件事放在一起,我们看到了什么? 1. NSA这篇论文的核心思想,是如何有效降低长上下文注意力的计算成本。算是 对去年5月MLA工作的补充 ( 不要低估这次的国产模型 )。MLA是对隐空间的压缩,而NSA是从序列长度的压缩。 2. MLA已经在V2、V3体现,但NSA还未没有应用于V3的训练中。 意味着如果后续DeepSeek训练中整合NSA, 可以预期DS基座模型整体能力,还有一次比较显著的提升 。论文中原话:“使用NSA预训练的模型超过了全注意力模型” 3. NSA论文有一个彩蛋:当时V3一个亮点就是基于CUDA和PTX,充分挖掘了N卡性能。但 NSA这次用了Triton ,没有提及N卡专用库和框架。Triton底层可以调用CUDA,也可以调用其他比如AMD的rocm,当然也可以调用国产卡......而另
………………………………