文章预览
2024-07-23 10:29
本条微博链接
这次要 Meta 要发布的模型不止 405B。 #ai# #llama# 新发布的 Llama 3.1 包括 8B、70B、405B 三个版本。 模型信息已经全部泄露: 1)Llama 3.1 系列的纯文本指令优化模型,专门针对多语言对话场景进行了优化。 2) 每个模型的上下文长度都 8K 提升到 128K。 3)练过程总共消耗了 3930 万 GPU 小时的计算资源,使用的是 H100-80GB 显卡,其中 8B 模型使用了 150 万小时,70B 模型使用了 700 万小时,405B 模型使用了 310
………………………………