专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
目录
相关文章推荐
今天看啥  ›  专栏  ›  魔搭ModelScope社区

浪潮信息开源 “源2.0 M32”MoE大模型!附魔搭社区推理微调最佳实践

魔搭ModelScope社区  · 公众号  ·  · 2024-06-13 20:48
    

文章预览

01 引言 浪潮信息  “源2.0 M32”大模型(简称,Yuan2.0-M32)  采用稀疏混合专家架构(MoE),以Yuan2.0-2B模型作为基底模型,通过创新的门控网络(Attention Router)实现32个专家间(Experts*32)的协同工作与任务调度,在显著降低模型推理算力需求的情况下,带来了更强的模型精度表现与推理性能;源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示,源2.0-M32在多项任务评测中,展示出了较为先进的能力表现,MATH(数学求解)、ARC-C(科学问答)测试精度超过LLaMA3-700亿模型。 Yuan2.0-M32大模型  基本信息如下: 模型参数量:40B 专家数量:32 激活专家数:2 激活参数量:3.7B 训练数据量:2000B tokens 支持序列长度:16K Benchmarks 测试 🏆 Yuan2.0-M32 模型与多个闭源、开源模型相比,均呈现出较好 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览