今天看啥  ›  专栏  ›  Founder Park

DeepSeek最新论文解读:NSA,物美价廉的超长上下文方案

Founder Park  · 公众号  ·  · 2025-02-20 19:59
    

文章预览

本文来自《马丁的面包屑》,Founder Park 略作调整。 2月18日,DeepSeek在Twitter上公布了最新论文: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 。 截止本篇解读完成,已经获得100万阅读量。 我对他的看法,可以引用Twitter上一名网友的评论:“Holy shit this shits on Grok 3”。 文雅地翻译:“我的天,这比Grok3强多了” 我更喜欢我读到这一句话时,脑子里第一时间的译法:“我的天,这简直是在Grok3头上拉屎” DeepSeek在解决什么问题? 前置科普 模型训练以及推理,和“注意力”这个东西脱离不了关系。为了方便后文的阅读,对注意力进行一个简单的科普: 你可以想象,你在读一本书,你的目光会在书上扫来扫去,理论上说是逐行阅读对吧? 但实际上,只要是稍微喜欢阅读的人,阅读中的目光一定是图像式的,也就是说“一目十行”,会 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览