专栏名称: 上海证券报
《上海证券报》1991年7月1日伴随着新中国证券市场的建立而创刊,是我国第一张提供权威金融证券专业资讯的全国性财经日报。《上海证券报》是新华社重点报刊,中国证监会、保监会、银监会指定信息披露报纸。
今天看啥  ›  专栏  ›  上海证券报

DeepSeek发布最新技术论文!梁文锋参与署名

上海证券报  · 公众号  · 证券  · 2025-02-18 22:01
    

文章预览

2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力)。据介绍,这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。 同时,记者注意到,在这篇论文的署名中,DeepSeek创始人梁文锋也作为共创在列。 DeepSeek发布最新技术论文报告 记者注意到,在这篇《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。 根据论文摘要,DeepSeek团队表示,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。 据悉,NSA通过高效的长序列处理能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览