专栏名称: 硅星人Pro
硅(Si)是创造未来的基础,欢迎来到这个星球。
今天看啥  ›  专栏  ›  硅星人Pro

杨植麟和梁文锋,论文撞车了

硅星人Pro  · 公众号  · 科技媒体  · 2025-02-19 10:04
    

文章预览

作者 | 王兆洋 邮箱 | wangzhaoyang@pingwest.com 1 在马斯克发布了他用20万张卡训出的Grok3的同一天,两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。 在这两篇论文的作者名目里,各自有一个大家熟悉的名字: 梁文锋,杨植麟。 2月18日,DeepSeek和月之暗面几乎同时发布了他们各自最新的论文,而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制,让它能更高效的处理更长的上下文。而更有趣的是,两家公司的技术派明星创始人的名字出现在各自的论文和技术报告里。 DeepSeek 发布的论文,标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 根据论文,它提出的新架构NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高;处理 64k 标记序列时,速度可提高至 11.6 倍,训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览