专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

再读MLA，还有多少细节是你不知道的

AINLP · 公众号 · · 2025-01-20 22:58

文章预览

关于MLA，我想先简单记录下我了解它的心路历程：我第一次了解MLA，是在它刚出来的档口。在我读过它的原生实践后，我发现它既不省KV cache，还徒增了计算量。这个问题让我困扰了很久，当时网上对MLA细节的讨论很少，所以我觉得大概是我没弄懂，所以它就被我放到一边去了。别人问起我MLA，我都回答不知道，因为我确实没想明白。直到最近dpsk v3的风刮起来，再加上实际体验后它的推理速度确实很快（当然我知道不止于MLA），所以又有了重新认识它的兴趣。而幸运的是，此时网上已经有关于MLA的诸多讨论了，这样就能和我的理解相互校验。在这一次的重新认识中，我发现我之前的认知其实没有错，原生MLA确实存在上述的2个问题，并且开源社区已有了各种对原生MLA的优化方法，这里我主要参考了： blog ：https://zhuanlan.zhihu.com/p/700214123 代码：h ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博