整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

大语言模型的训练及推断原理速览

关于NLP那些你不知道的事  · 公众号  ·  · 2024-07-30 07:00

文章预览

作者:不理不理 原 文 地址: https://zhuanlan.zhihu.com/p/674804590 今年在做大语言模型的研究和应用工作中,总结了一些个人笔记,上传至知乎与大家一起交流、分享,有不对的地方也欢迎指正。 1. 推断 LLM 的推断通常会采用一种称之为 KV Cache 的技术,其分为两个阶段:预填充和解码。 1.1 KV Cache 预填充:给定一个任意长度 s 的输入序列,模型会在一次前向计算中同时处理这些 tokens,同时 缓存 这 s 个 tokens 在每层网络中的 K 和 V 向量,这些缓存的向量就是 KV Cache。 解码:模型的生成结果都是一个 token 一个 token 蹦出来的。预测第 i 个( i ≥ 1 )位置的输出结果时,会逐层计算该 token 在这一层的 Q、K、V 向量,然后将该 token 的 K 向量同先前 s + i - 1 个 tokens 在该层的 K Cache 拼接在一起作为新的 K Cache,同理将该 token 的 V 向量同先前的 V Cache 拼接在一起 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览