浅谈Llama3.1，从结构、训练过程、影响到数据合成

NLP工作站 · 公众号 · · 2024-07-25 00:00

文章预览

Llama3.1系列模型的开源，真让大模型格局大震，指标上堪比最好的闭源模型比如GPT 4o和Claude3.5，让开源追赶闭源成为现实。这里给大家分享一篇俊林兄（@知乎张俊林）的一篇解读，主要对LLaMA3.1的模型结构、训练过程进行分享，并对其带来的影响、小模型要如何做、合成数据等方面谈点看法。知乎原文：https://www.zhihu.com/question/662354435/answer/3572364267 Llama3.1 Paper: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/ LLaMA3模型结构 LLaMa3模型结构 LLaMa3的模型结构如上图所示，这基本已经形成目前Dense LLM模型的标准结构了，绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型，其变化无非是把上图的FFN模块里的单个SwiGLU模块拓展成K个并联的SwiGLU模块，形成多个专家，再加上一个路由子网络来选择目前Token走这么多专家里的哪几个，如此而已 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博