专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大语言模型技术点总结

关于NLP那些你不知道的事 · 公众号 · · 2024-09-27 00:00

文章预览

大语言模型技术点总结作者：jewellery 原文地址：https://zhuanlan.zhihu.com/p/717584633 本文将开源文本大模型中的LLaMA系列和Qwen系列的各个版本技术点对比总结成表格形式，方便查看和阅览，然后基于一些共性的技术点进行详细介绍。一、LLaMA 1、模型技术点对比总结 llama系列是Meta开源的文本大模型，采用Transformer Decoder-Only架构，通过阅读几个版本的技术报告，总结一些核心技术数据选取如下表： 2、模型架构与训练 1）LLaMA模型架构，LLaMA1~LLaMA2~LLaMA3在模型架构上几乎没有变化。模型架构图如下： LLaMA Model Architecture 2）LLaMA2从预训练到Chat训练全流程，如下图： Overall Training of LLaMA 2-Chat 3）LLaMA3的预训练和后训练流程 Pre-Training of LLaMA 3 Post-Training of LLaMA 3 (Rejection Sampling, SFT, DPO) 二、Qwen qwen系列是国内开源比较完整，商业和微调都比较常用的文本大模型，采用 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博