文章预览
Qwen2 系列发布了一整套基础和指令调整的语言模型,参数范围从 0.5 到 720 亿,包括四个密集模型,参数数量分别为 5 亿、15 亿、70 亿和 720 亿,加上一个具有 570 亿个参数的专家混合 (MoE) 模型,其中每个词符激活 140 亿个参数。 较小的型号,特别是 Qwen2-0.5B 和 Qwen2-1.5B,专为轻松部署在智能手机、耳机和智能眼镜等便携式设备上而设计。 所有模型均在包含超过 7 万亿个 Token 、涵盖广泛领域和语言的高质量、大规模数据集上进行预训练。与之前版本的 Qwen 相比,Qwen2 包含更广泛的语言数据,提高了代码和数学内容的数量和质量。在训练后,所有模型都经过监督微调和直接偏好优化,通过学习人类反馈来使它们与人类偏好保持一致。 这个过程赋予模型有效遵循指令的能力。 Qwen2-72B 表现非常出色:MMLU 84.2、GPQA 37.9、HumanEval 64.6、GSM8K 89.5、BBH 82.4(base
………………………………