文章预览
【导读】:本文是LLM知识点第四篇,介绍LLM中的最重要的Attention机制,具体有Attention机制,Self-Attention,Multi-head Attention的原理和实现细节,接着会介绍 围绕KV Cache进行的推理优化而提出的 MQA,GQA和MLA。 Attention机制 【1】简要介绍Attention机制 提出Attention的论文 : Attention Is All You Need 论文地址:https://arxiv.org/pdf/1706.03762.pdf 提出Attention的背景: RNN处理序列数据时,token是逐个喂给模型的。 比如在a3的位置,模型要等a1和a2的信息都处理完成后,才可以生成a3 。 存在问题是:a.随着序列长度的增加,模型并行计算的能力变差。b.随着token间距离的增加,对于远距离处的信息,RNN很难捕获其依赖关系。 针对问题改进:提升模型的并行运算能力,序列中的每个token能无损地捕获序列里的其他tokens信息。改进办法就是Attention。 如蓝色方框为attention模型。在
………………………………