文章预览
刚刚Meta 发布了一系列新的 Llama 3.1 模型,其中包括我们期待已久的 405B。Llama 3.1 405B 独树一帜,具有无与伦比的灵活性、控制力和最先进的功能,可与最好的闭源模型相媲美 新模型将使开源社区能够解锁新的工作流程,例如合成数据生成和模型蒸馏。技术特点 : 405B参数模型在超过15万亿个标记上训练,使用16000多个英伟达H100 GPU 上下文长度扩展到128K,支持8种语言 采用16位(BF16)到8位(FP8)的量化技术,降低计算需求 改进包括更严格的数据预处理、质量保证和过滤,采用仅解码器Transformer架构 具体来说Llama 3.1在 150 多个涵盖多种语言的基准数据集上评估了性能,此外还在现实场景中进行了大量人工评估。结果表明,405B 在一系列任务上可与 GPT-4o、Claude 3.5 和 Gemini Ultra 等领先的闭源模型相媲美 升级后的 Llama 3.1 8B 和 70B 模型也是同类产品中
………………………………