专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

万字长文串烧LLM大模型技术原理

极市平台  · 公众号  ·  · 2024-11-11 22:00

文章预览

↑ 点击 蓝字  关注极市平台 作者丨hadiii,北京大学 电子信息硕士在读 来源丨https://zhuanlan.zhihu.com/p/713794852 编辑丨极市平台 本文仅作为学术分享,侵删 极市导读   导读 对Llama 3大型语言模型技术的一次全面概述,涵盖了预训练、后训练及推理阶段的关键技术,包括数据处理、量化方法(如INT8和FP8量化)、以及如何通过微调提升模型效率和准确性等方面的内容。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 0 开始之前 本文从Llama 3报告出发,基本整理一些现代LLM的技术。'基本',是说对一些具体细节不会过于详尽,而是希望得到一篇相对全面,包括预训练,后训练,推理,又能介绍清楚一些具体技术,例如RM,DPO,KV Cache,GQA,PagedAttention,Data Parallelism等等的索引向文章。由于东西比较多,且无法详尽细节,所以推荐大家二次整理为自己的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览