专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
今天看啥  ›  专栏  ›  AIGC新智界

杨植麟和梁文锋,论文撞车了

AIGC新智界  · 公众号  · 比特币  · 2025-02-20 17:49
    

文章预览

图片来源:由无界AI生成 01 在马斯克发布了他用20万张卡训出的Grok3的同一天,两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。 在这两篇论文的作者名目里,各自有一个大家熟悉的名字: 梁文锋,杨植麟。 2月18日,DeepSeek和月之暗面几乎同时发布了他们各自最新的论文,而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制,让它能更高效的处理更长的上下文。而更有趣的是,两家公司的技术派明星创始人的名字出现在各自的论文和技术报告里。 DeepSeek 发布的论文,标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 根据论文,它提出的新架构NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高;处理 64k 标记序列时,速度可提高至 11.6 倍,训练也更高效,所需 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览