专栏名称: 界面新闻
界面是中国最大的商业新闻和社交平台,只服务于独立思考的人群。
今天看啥  ›  专栏  ›  界面新闻

DeepSeek新论文再次引发热议,它说了什么?

界面新闻  · 公众号  · 热门自媒体  · 2025-02-19 15:00
    

文章预览

图片来源:界面图库 界面新闻记者 | 伍洋宇 界面新闻编辑 | 文姝琪 DeepSeek V3和R1两款模型带来的热度尚未平息,一篇新论文再次引来科技圈对其创新性的集体评估。 2月18日,DeepSeek的研究团队发布了一篇新的技术论文,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X(原推特)平台上,DeepSeek这条推文在24小时内的阅读量已达168万。 这是一种可用于超快长上下文训练和推理的稀疏注意力机制,并具有硬件对齐和本地可训练的特性。其中最核心的内容就是NSA(Native Sparse Attention),一种全新的注意力机制。 简单概括,凭借这套技术思路,大模型训练将不仅对硬件要求更低,并且训练效率更高,可能是一次相较MLA更高级别的创新。 稀疏注意力(Sparse Attention)是相对完全注意力(Full Attention)而言。在完全注意力机制的技术框架 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览