文章预览
大语言模型技术点总结 作者:jewellery 原文地址:https://zhuanlan.zhihu.com/p/717584633 本文将开源文本大模型中的LLaMA系列和Qwen系列的各个版本技术点对比总结成表格形式,方便查看和阅览,然后基于一些共性的技术点进行详细介绍。 一、LLaMA 1、模型技术点对比总结 llama系列是Meta开源的文本大模型,采用Transformer Decoder-Only架构,通过阅读几个版本的技术报告,总结一些核心技术数据选取如下表: 2、模型架构与训练 1)LLaMA模型架构,LLaMA1~LLaMA2~LLaMA3在模型架构上几乎没有变化。模型架构图如下: LLaMA Model Architecture 2)LLaMA2从预训练到Chat训练全流程,如下图: Overall Training of LLaMA 2-Chat 3)LLaMA3的预训练和后训练流程 Pre-Training of LLaMA 3 Post-Training of LLaMA 3 (Rejection Sampling, SFT, DPO) 二、Qwen qwen系列是国内开源比较完整,商业和微调都比较常用的文本大模型,采用
………………………………