浪潮信息开源 “源2.0 M32”MoE大模型！附魔搭社区推理微调最佳实践

魔搭ModelScope社区 · 公众号 · · 2024-06-13 20:48

文章预览

01 引言浪潮信息 “源2.0 M32”大模型（简称，Yuan2.0-M32）采用稀疏混合专家架构（MoE），以Yuan2.0-2B模型作为基底模型，通过创新的门控网络（Attention Router）实现32个专家间（Experts*32）的协同工作与任务调度，在显著降低模型推理算力需求的情况下，带来了更强的模型精度表现与推理性能；源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示，源2.0-M32在多项任务评测中，展示出了较为先进的能力表现，MATH（数学求解）、ARC-C（科学问答）测试精度超过LLaMA3-700亿模型。 Yuan2.0-M32大模型基本信息如下：模型参数量：40B 专家数量：32 激活专家数：2 激活参数量：3.7B 训练数据量：2000B tokens 支持序列长度：16K Benchmarks 测试 🏆 Yuan2.0-M32 模型与多个闭源、开源模型相比，均呈现出较好 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博