专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【LLM基础知识】LLMs-Attention知识总结笔记v4.0

AINLP  · 公众号  ·  · 2024-07-23 10:10
    

文章预览

‍ 【导读】:本文是LLM知识点第四篇,介绍LLM中的最重要的Attention机制,具体有Attention机制,Self-Attention,Multi-head Attention的原理和实现细节,接着会介绍 围绕KV Cache进行的推理优化而提出的 MQA,GQA和MLA。 Attention机制 【1】简要介绍Attention机制 提出Attention的论文 : Attention Is All You Need  论文地址:https://arxiv.org/pdf/1706.03762.pdf 提出Attention的背景: RNN处理序列数据时,token是逐个喂给模型的。 比如在a3的位置,模型要等a1和a2的信息都处理完成后,才可以生成a3 。 存在问题是:a.随着序列长度的增加,模型并行计算的能力变差。b.随着token间距离的增加,对于远距离处的信息,RNN很难捕获其依赖关系。 针对问题改进:提升模型的并行运算能力,序列中的每个token能无损地捕获序列里的其他tokens信息。改进办法就是Attention。 如蓝色方框为attention模型。在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览