DeepSeek最新论文解读：NSA，物美价廉的超长上下文方案

Founder Park · 公众号 · · 2025-02-20 19:59

文章预览

本文来自《马丁的面包屑》，Founder Park 略作调整。 2月18日，DeepSeek在Twitter上公布了最新论文： Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 。截止本篇解读完成，已经获得100万阅读量。我对他的看法，可以引用Twitter上一名网友的评论：“Holy shit this shits on Grok 3”。文雅地翻译：“我的天，这比Grok3强多了” 我更喜欢我读到这一句话时，脑子里第一时间的译法：“我的天，这简直是在Grok3头上拉屎” DeepSeek在解决什么问题？前置科普模型训练以及推理，和“注意力”这个东西脱离不了关系。为了方便后文的阅读，对注意力进行一个简单的科普：你可以想象，你在读一本书，你的目光会在书上扫来扫去，理论上说是逐行阅读对吧？但实际上，只要是稍微喜欢阅读的人，阅读中的目光一定是图像式的，也就是说“一目十行”，会 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北京商报 · 抽象版奥斯卡！这些影史经典形象，你能认出几个？

7 小时前

北京商报 · 抽象版奥斯卡！这些影史经典形象，你能认出几个？

7 小时前

游戏茶馆 · 【大武道】放置RPG 修仙游戏寻港澳台或东南亚地区独代 | 游茶会·社群产品推荐

昨天

科学家庭育儿 · 性价比儿童卫衣、卫裤，69.9元/2件！纯棉亲肤，超好穿

2 天前

育学园 · 放手半年，儿子变得又懒又厌学，我才醒悟：“不会翻脸”的家长，永远养不出自觉的孩子

3 天前

Datawhale · Datawhale进入全球前80！

5 月前

深蓝财经 · 华为孟晚舟最新演讲，勉励大学学子

3 月前

深蓝财经 · 华为孟晚舟最新演讲，勉励大学学子

3 月前

活报告 · 中信续创不败神话！「汇舸环保」首日上涨6.29%，换手率近三成

1 月前

MEMS · 可重构神经形态视觉传感器，可用于运动目标监测

1 月前