专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

DeepSeek的新论文,梁文峰也是作者之一介绍了NSA(Nat-20250219090223

黄建同学  · 微博  · AI  · 2025-02-19 09:02
    

文章预览

2025-02-19 09:02 本条微博链接 DeepSeek的新论文,梁文峰也是作者之一 介绍了NSA(Native Sparse Attention),一种与硬件对齐且可原生训练的稀疏注意力机制,旨在加速长文本处理的训练和推理速度。 NSA的核心组成包括动态层次稀疏策略、粗粒度的Token压缩以及细粒度的Token选择。通过为现代硬件优化设计,NSA在降低预训练成本的同时加快了推理速度,并能在通用基准测试、长文本任务和基于指令的推理中与全注意力模型匹敌或超 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览