注册登录

专栏名称: 深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

出彩写作 · 如何看待“笔杆子”的无力感？ · 20 小时前

一星期一本书 · 睡前思考一段话 · 2 天前

一星期一本书 · 睡前思考一段话 · 2 天前

出彩写作 · 缺写手的实质是什么？ · 2 天前

演讲传承 · 兄弟姐妹间的因果，谁也逃不过 · 4 天前

青云说说 · 青云早学习11/17、你我的世界，天使一定曾 ... · 5 天前

今天看啥 › 专栏 › 深度学习与NLP

现代LLM基本技术整理

深度学习与NLP · 公众号 · · 2024-10-12 00:00

文章预览

原文：https://zhuanlan.zhihu.com/p/713794852 0 开始之前本文从Llama 3报告出发，基本整理一些现代LLM的技术。'基本'，是说对一些具体细节不会过于详尽，而是希望得到一篇相对全面，包括预训练，后训练，推理，又能介绍清楚一些具体技术，例如RM，DPO，KV Cache，GQA，PagedAttention，Data Parallelism等等的索引向文章。由于东西比较多，且无法详尽细节，所以推荐大家二次整理为自己的笔记。本文的主要参考是Llama Team的The Llama 3 Herd of Models报告原文，以及沐神回归B站新出的论文精读系列。同时也包括一些知乎的优秀文章。 1 Intro Illustration of the overall architecture and training of Llama 3 Overview of the Llama 3 Herd of models. 1.1 现代基础模型训练的主要阶段（a）预训练阶段（pre-training stage）：算法相对直接，一般是用大量的数据去做下一个词的预测（next-word prediction）。（b） ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

出彩写作 · 如何看待“笔杆子”的无力感？

20 小时前

一星期一本书 · 睡前思考一段话

2 天前

一星期一本书 · 睡前思考一段话

2 天前

出彩写作 · 缺写手的实质是什么？

2 天前

演讲传承 · 兄弟姐妹间的因果，谁也逃不过

4 天前

青云说说 · 青云早学习11/17、你我的世界，天使一定曾来过………

5 天前

IVD从业者网 · 迈瑞，今年国内发光市占率将再超一家进口品牌！

3 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号