今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

LLaMA3.1为什么选择405B作为最大参数量?

吃果冻不吐果冻皮  · 公众号  ·  · 2024-08-10 10:22

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/712519546 趁着心情不错的三分钟热血读一读llama3.1 report的3.2.1章节。llama3.1的report目前发现3处数值错误或逻辑错误的描述,读的时候需要仔细一点。错误的地方写到再说。 省流 最大参数量由 GPU集群的计算能力 (GPU的型号选择H100,则计算能力只取决于GPU的数量。计算能力在文章中使用Compute budgets表示)、 可使用tokens的数量 和 Scaling law 三者共同决定。 Meta这次拿出了 3.8x10^25FLOPS  的Compute budgets和 15-17T  的高质量清洗tokens,根据Scaling law 则模型的最佳参数量在 400B左右 。 不省流版 1、确定目标:想要得到参数量值,需要先拿到最佳tokens数 在启动一个训练任务之前, GPU的数量肯定是确定的 ,那么根据公式(2)想要得到最佳参数量  𝑀  ,我们还差一个 𝐷  也就是 可供使用的tokens的数量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览