这次要 Meta 要发布的模型不止 405B。#ai##llam-20240723102956

歸藏的AI工具箱 · 微博 · · 2024-07-23 10:29

文章预览

2024-07-23 10:29 本条微博链接这次要 Meta 要发布的模型不止 405B。 #ai# #llama# 新发布的 Llama 3.1 包括 8B、70B、405B 三个版本。模型信息已经全部泄露： 1）Llama 3.1 系列的纯文本指令优化模型，专门针对多语言对话场景进行了优化。 2）每个模型的上下文长度都 8K 提升到 128K。 3）练过程总共消耗了 3930 万 GPU 小时的计算资源，使用的是 H100-80GB 显卡，其中 8B 模型使用了 150 万小时，70B 模型使用了 700 万小时，405B 模型使用了 310 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博