DeepSeek新论文再次引发热议，它说了什么？

界面新闻 · 公众号 · 热门自媒体 · 2025-02-19 15:00

文章预览

图片来源：界面图库界面新闻记者 | 伍洋宇界面新闻编辑 | 文姝琪 DeepSeek V3和R1两款模型带来的热度尚未平息，一篇新论文再次引来科技圈对其创新性的集体评估。 2月18日，DeepSeek的研究团队发布了一篇新的技术论文，《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X（原推特）平台上，DeepSeek这条推文在24小时内的阅读量已达168万。这是一种可用于超快长上下文训练和推理的稀疏注意力机制，并具有硬件对齐和本地可训练的特性。其中最核心的内容就是NSA（Native Sparse Attention），一种全新的注意力机制。简单概括，凭借这套技术思路，大模型训练将不仅对硬件要求更低，并且训练效率更高，可能是一次相较MLA更高级别的创新。稀疏注意力（Sparse Attention）是相对完全注意力（Full Attention）而言。在完全注意力机制的技术框架 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

差评X.PIN · 连续奇袭的京东，能挤进外卖行业吗？

18 小时前

界面新闻 · 超越ChatGPT，马斯克的Grok升至苹果美区免费APP榜首

昨天

界面新闻 · 饿了么：2023年已试点为外卖骑手缴纳社保

昨天

界面新闻 · 普京：俄方准备就乌克兰问题重返谈判桌

昨天

界面新闻 · 现货黄金再创历史新高，报2943美元/盎司

2 天前

机器人技术与应用 · 一文看全中国72家 “灯塔工厂”

3 月前

930老友记 · 【观点交锋】不许收付彩礼！胖东来公布员工结婚标准

1 月前