注册登录

专栏名称: 李rumor

AI算法小姐姐，朋克且极客

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

湖南应急管理 · 划重点！船舶汛期安全注意事项请查收 · 9 小时前

南京广播电视台 · 突发！已致406人受伤！伊朗港口发生爆炸 · 2 天前

南京广播电视台 · 突发！已致406人受伤！伊朗港口发生爆炸 · 2 天前

今天看啥 › 专栏 › 李rumor

LLama3的100页Know How

李rumor · 公众号 · · 2024-07-25 09:18

文章预览

作者：张俊林链接：https://www.zhihu.com/question/662354435/answer/3572364267 LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5，这算是开源届的大事，技术报告接近100页，信息很丰富，粗略看了一下，很有启发。这里就LLaMA 3的模型结构、训练过程做些解读，并对其影响、小模型如何做、合成数据等方面谈点看法。 LLaMA 3模型结构 LLaMA 3的模型结构如图1所示，这基本已经形成目前Dense LLM模型的标准结构了，绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型，其变化无非是把上图的FFN模块里的单个SwiGLU模块拓展成K个并联的SwiGLU模块，形成多个专家，再加上一个路由子网络来选择目前Token走这么多专家里的哪几个，如此而已，基本结构也差不太多（所以不要误会，MOE是Transformer的一种变体，不是独立的模型结构。很多目前的新型结 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

湖南应急管理 · 划重点！船舶汛期安全注意事项请查收

9 小时前

南京广播电视台 · 突发！已致406人受伤！伊朗港口发生爆炸

2 天前

南京广播电视台 · 突发！已致406人受伤！伊朗港口发生爆炸

2 天前

化工365 · 齐聚南京！化工工艺和系统设计高级培训班开放报名中

9 月前

四大新鲜事儿 · 普华永道DC社招岗位持续更新中！

7 月前

销售技巧与话术 · 销售最好用的“破冰”话术

6 月前

聚美丽 · 打高奢美妆牌的水羊，9个月营收30亿

6 月前

VC/PE/MA金融圈 · 高盛承认：65亿打水漂了

4 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号