专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

智能涌现 · 2024年，百度最重用的两位女高管｜智涌分析 · 5 小时前

芋道源码 · 新来了个同事，代码命名规范是真优雅呀！代码如诗！！ · 昨天

赛博禅心 · 读屏不靠截图：ChatGPT ... · 3 天前

电池中国 · 【视频】CBIS2024探展合辑之利元亨/安 ... · 3 天前

ShenzhenWeekly · 深圳人专属的「精神派对」来了，限时4天开放 · 5 天前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

LLaMA3.1为什么选择405B作为最大参数量？

吃果冻不吐果冻皮 · 公众号 · · 2024-08-10 10:22

文章预览

【点击】加入大模型技术交流群原文：https://zhuanlan.zhihu.com/p/712519546 趁着心情不错的三分钟热血读一读llama3.1 report的3.2.1章节。llama3.1的report目前发现3处数值错误或逻辑错误的描述，读的时候需要仔细一点。错误的地方写到再说。省流最大参数量由 GPU集群的计算能力（GPU的型号选择H100，则计算能力只取决于GPU的数量。计算能力在文章中使用Compute budgets表示）、可使用tokens的数量和 Scaling law 三者共同决定。 Meta这次拿出了 3.8x10^25FLOPS 的Compute budgets和 15-17T 的高质量清洗tokens，根据Scaling law 则模型的最佳参数量在 400B左右。不省流版 1、确定目标：想要得到参数量值，需要先拿到最佳tokens数在启动一个训练任务之前， GPU的数量肯定是确定的，那么根据公式（2）想要得到最佳参数量 𝑀 ，我们还差一个 𝐷 也就是可供使用的tokens的数量 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

智能涌现 · 2024年，百度最重用的两位女高管｜智涌分析

5 小时前

智能涌现 · 2024年，百度最重用的两位女高管｜智涌分析

5 小时前

芋道源码 · 新来了个同事，代码命名规范是真优雅呀！代码如诗！！

昨天

赛博禅心 · 读屏不靠截图：ChatGPT 客户端的原理、实现与边界

3 天前

电池中国 · 【视频】CBIS2024探展合辑之利元亨/安迈特科技/高能数造

3 天前

电池中国 · 【视频】CBIS2024探展合辑之利元亨/安迈特科技/高能数造

3 天前

ShenzhenWeekly · 深圳人专属的「精神派对」来了，限时4天开放

5 天前

ShenzhenWeekly · 深圳人专属的「精神派对」来了，限时4天开放

5 天前

蝌蚪五线谱 · 乳腺增生真的是豆浆惹的祸吗？

4 月前

深圳特区报 · 深汕特别合作区：奋力打造广东东部板块高质量发展战略引擎

4 月前

龚文祥 · 发布了头条文章：《龚文祥：悲剧！1000万房贷压垮，被房地产、金-20240709214402

4 月前

艾邦高分子 · 【主题演讲】今山新材：新能源汽车中CCS、母排和FPC上的聚酰亚胺薄膜

4 月前