主要观点总结
文章介绍了Meta公司开源的大型语言模型Llama 3.1的泄露消息。该模型包括基础模型以及8B、70B和最大参数的405B的基准测试结果。文章详细描述了Llama 3.1模型的几个关键亮点,包括其多语言能力、模型架构、训练数据、训练能耗等。同时,文章也提到了该模型的安全风险考量和使用注意事项。
关键观点总结
关键观点1: 模型泄露及版本信息
新版Llama大模型泄露的消息今日在Reddit上被疯传,除了基础模型外还包括多个版本测试的结果。泄露模型集合包含了不同大小版本的多语言大型语言模型,支持的语言包括英语、德语等。
关键观点2: 模型架构和训练数据
Llama 3.1采用优化后的Transformer架构自回归语言模型,并使用分组查询注意力提高推理可扩展性。模型的训练数据来自公开来源的约15万亿个token数据,并且包括公开可用的指令微调数据集和综合生成的合成样本。
关键观点3: 安全风险和模型测试
尽管模型被设计为通用的人工智能系统的一部分,而非单独部署,但在使用时仍需注意安全风险考量。模型对于输入输出的良性拒绝性能具有严格的规定和控制措施,以及不同应用场景的最佳实践和标准。此外,开发人员在构建智能系统时应部署系统安全措施并进行充分的安全测试和微调。
文章预览
机器之心报道 机器之心编辑部 快准备好你的 GPU! Llama 3.1 终于现身了,不过出处却不是 Meta 官方。 今日,Reddit 上新版 Llama 大模型泄露的消息遭到了疯传, 除了基础模型,还包括 8B、70B 和最大参数的 405B 的基准测试结果 。 下图为 Llama 3.1 各版本与 OpenAI GPT-4o、Llama 3 8B/70B 的比较结果。可以看到, 即使是 70B 的版本,也在多项基准上超过了 GPT-4o 。 图源:https://x.com/mattshumer_/status/1815444612414087294 显然,3.1 版本的 8B 和 70B 模型是由 405B 蒸馏得来的,因此相比上一代有着明显的性能提升。 有网友表示,这是 首次开源模型超越了 GPT4o 和 Claude Sonnet 3.5 等闭源模型,在多个 benchmark 上达到 SOTA 。 与此同时,Llama 3.1 的模型卡流出,细节也泄露了(从模型卡中标注的日期看出基于 7 月 23 日发布)。 有人总结了以下几个亮点: 模型使用了公开来源的 15T+ tokens
………………………………