文章预览
关于MLA,我想先简单记录下我了解它的心路历程: 我第一次了解MLA,是在它刚出来的档口 。在我读过它的原生实践后, 我发现它既不省KV cache,还徒增了计算量 。这个问题让我困扰了很久,当时网上对MLA细节的讨论很少,所以我觉得大概是我没弄懂,所以它就被我放到一边去了。别人问起我MLA,我都回答不知道,因为我确实没想明白。 直到最近dpsk v3的风刮起来,再加上实际体验后它的推理速度确实很快(当然我知道不止于MLA),所以又有了重新认识它的兴趣。而幸运的是,此时网上已经有关于MLA的诸多讨论了,这样就能和我的理解相互校验。在这一次的重新认识中, 我发现我之前的认知其实没有错,原生MLA确实存在上述的2个问题,并且开源社区已有了各种对原生MLA的优化方法 ,这里我主要参考了: blog :https://zhuanlan.zhihu.com/p/700214123 代码 :h
………………………………