大模型结构的进化（一）：LLaMA 3.1结构及影响解析

人工智能与算法学习 · 公众号 · · 2024-07-25 11:00

文章预览

作者：张俊林中科院软件所博士 LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5，这算是开源届的大事，技术报告接近100页，信息很丰富，粗略看了一下，很有启发。这里就LLaMA 3的模型结构、训练过程做些解读，并对其影响、小模型如何做、合成数据等方面谈点看法。 LLaMA3模型结构 LLaMa3模型结构 LLaMa3的模型结构如上图所示，这基本已经形成目前Dense LLM模型的标准结构了，绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型，其变化无非是把上图的FFN模块里的单个SwiGLU模块拓展成K个并联的SwiGLU模块，形成多个专家，再加上一个路由子网络来选择目前Token走这么多专家里的哪几个，如此而已，基本结构也差不太多（所以不要误会，MOE是Transformer的一种变体，不是独立的模型结构。很多目前的新型结构，其实是“线 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

经视直播 · 我国多地发现大型金矿！

20 小时前

经视直播 · 国家出手了，今起，集体大降！

23 小时前

青岛新闻网 · 已确认去世！千万粉丝网红发文道歉

昨天

青岛新闻网 · 已确认去世！千万粉丝网红发文道歉

昨天

经视直播 · 极越：1月17日起启动意向金退款，正开拓售后网点

3 天前

深圳晚报 · 宠物年夜饭热销！168元一狗

3 天前

小米智能生态 · 恭喜@越必茄子 1名用户获得【小米手环9】。微博官方唯一抽奖工具-20241206000250

1 月前

詹姆斯吧官方微博 · 【湖人114-106开拓者，全场集锦】詹姆斯38分3篮板8助攻，-20250103142157

2 周前