专栏名称: 算法与数据结构
算法与数据结构知识、资源分享
目录
相关文章推荐
九章算法  ·  Meta启动hiring ... ·  12 小时前  
今天看啥  ›  专栏  ›  算法与数据结构

梁文锋亲自参与,DeepSeek发重磅论文(附下载)

算法与数据结构  · 公众号  · 算法  · 2025-02-20 11:58
    

文章预览

DeepSeek 团队发布注意力新机制新论文,梁文锋是共创之一 由 DeepSeek 联合创始人梁文锋亲自挂名的研究团队发布了一篇新论文(https://arxiv.org/pdf/2502.11089v1),提出了一种名为 NSA 的新型注意力机制,专为超快长上下文训练和推断设计,具有硬件对齐的特点。 NSA 通过分层 token 建模减少计算量,并通过硬件对齐的系统和训练感知的设计实现高效的部署和端到端训练。实验表明,NSA 在多个评估中表现优异,与 Full Attention 相比,在解码、前向和后向阶段提供了显著的加速,且加速比随着序列长度的增加而增加。这项研究验证了分层稀疏注意力设计在平衡模型能力和计算效率方面的有效性。 来自DeepSeek的论文概括: 这篇论文探讨了在大型语言模型(LLMs)中,如何通过上下文学习(In-Context Learning, ICL)来提升模型的任务泛化能力。 主要贡献如下: 问题背 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览