今天看啥  ›  专栏  ›  魔搭ModelScope社区

Llama 3.3开源!70B媲美405B性能,支持128K上下文

魔搭ModelScope社区  · 公众号  ·  · 2024-12-10 21:35
    

文章预览

01 引言 近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。Llama 3.3 指令调优的纯文本模型针对多语言对话用例进行了优化,并在常见的行业基准测试中优于许多可用的开源和闭源聊天模型。 Llama 3.3 是一个使用优化后的Transformer架构的自回归语言模型。 调优版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有用性和安全性的偏好保持一致。 训练数据:新的公开在线数据混合集 参数量:70B 输入模态:多语言文本 输出模态:多语言文本和代码 上下文长度:128K GQA:是 训练tokens:15T+( 仅指预训练数据 ) 知识截止日期:2023年12月 支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语 *注:Llama 3.3 的训练数据集包含 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览