现代LLM基本技术整理

大模型智能 · 公众号 · · 2024-09-28 09:00

文章预览

大模型智能｜分享来源 | 青稞AI 作者 | hadiii 00 开始之前本文从Llama 3报告出发，基本整理一些现代LLM的技术。'基本'，是说对一些具体细节不会过于详尽，而是希望得到一篇相对全面，包括预训练，后训练，推理，又能介绍清楚一些具体技术，例如RM，DPO，KV Cache，GQA，PagedAttention，Data Parallelism等等的索引向文章。由于东西比较多，且无法详尽细节，所以推荐大家二次整理为自己的笔记。本文的主要参考是Llama Team的The Llama 3 Herd of Models报告原文，以及沐神回归B站新出的论文精读系列。同时也包括一些知乎的优秀文章。 01 Intro Illustration of the overall architecture and training of Llama 3 Overview of the Llama 3 Herd of models. 1.1 现代基础模型训练的主要阶段（a）预训练阶段（pre-training stage）：算法相对直接，一般是用大量的数据去做下一个词的预测（next-word prediction） ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博