专栏名称: APPSO
让智能手机更好用的秘密。
今天看啥  ›  专栏  ›  APPSO

杨植麟和梁文锋,论文撞车了

APPSO  · 公众号  · app  · 2025-02-22 11:58
    

文章预览

作者 | 王兆洋 在马斯克发布了他用 20 万张卡训出的 Grok 3 的同一天,两篇与马氏大力出奇迹「相反」路线的论文也发表在了技术社区。 在这两篇论文的作者名目里,各自有一个大家熟悉的名字: 梁文锋,杨植麟。 2 月 18 日,DeepSeek 和月之暗面几乎同时发布了他们各自最新的论文,而主题直接「撞车」—— 都是挑战 Transformer 架构最核心的注意力机制,让它能更高效的处理更长的上下文。而更有趣的是,两家公司的技术派明星创始人的名字出现在各自的论文和技术报告里。 DeepSeek 发布的论文,标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 根据论文,它提出的新架构 NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高;处理 64k 标记序列时,速度可提高至 11.6 倍,训练也更高效,所需算 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览