专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

弗雷赛斯 · 终于有出版社出手了！先预审，确定送审了再投稿！ · 3 天前

兰州大学萃英在线 · 团体辅导招募 | “向学”伴你学在兰大 · 3 天前

YNTV2都市条形码 · 最新放假通知！ · 4 天前

四川大学本科招生 · 川大的夜晚 · 5 天前

募格学术 · 重磅：高级科学润色服务正式上线 · 6 天前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

现代LLM基本技术整理

吃果冻不吐果冻皮 · 公众号 · · 2024-10-10 21:12

文章预览

【点击】加入大模型技术交流群原文：https://zhuanlan.zhihu.com/p/713794852 0 开始之前本文从Llama 3报告出发，基本整理一些现代LLM的技术。'基本'，是说对一些具体细节不会过于详尽，而是希望得到一篇相对全面，包括预训练，后训练，推理，又能介绍清楚一些具体技术，例如RM，DPO，KV Cache，GQA，PagedAttention，Data Parallelism等等的索引向文章。由于东西比较多，且无法详尽细节，所以推荐大家二次整理为自己的笔记。本文的主要参考是Llama Team的The Llama 3 Herd of Models报告原文，以及沐神回归B站新出的论文精读系列。同时也包括一些知乎的优秀文章。 1 Intro Illustration of the overall architecture and training of Llama 3 Overview of the Llama 3 Herd of models. 1.1 现代基础模型训练的主要阶段（a）预训练阶段（pre-training stage）：算法相对直接，一般是用大量的数据去做下一个词的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

弗雷赛斯 · 终于有出版社出手了！先预审，确定送审了再投稿！

3 天前

兰州大学萃英在线 · 团体辅导招募 | “向学”伴你学在兰大

3 天前

YNTV2都市条形码 · 最新放假通知！

4 天前

YNTV2都市条形码 · 最新放假通知！

4 天前

四川大学本科招生 · 川大的夜晚

5 天前

四川大学本科招生 · 川大的夜晚

5 天前

募格学术 · 重磅：高级科学润色服务正式上线

6 天前

今日房产 · 新华路217㎡大平层，最新报价1988万

2 月前