文章预览
近期,全新发布的大模型“源 2.0-M32”为 MoE 算法结构创新带来了全新思路—— 创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE) ,大幅提升了模型算力效率。支持以更少的算力消耗,实现更高的模型能力! 根据官方信息显示, 源 2.0-M32 模型运行时激活参数为 37 亿 ,在数学竞赛、基础数学、代码生成、综合知识能力、科学推理方面与 LLaMA3-700 亿不相上下。同时,源 2.0-M32 大幅提升了模型算力效率,在性能全面对标 LLaMA3-700 亿的同时,显著降低了在模型训练、微调和推理所需的算力开销,算力消耗仅为 LLaMA3-700 亿的 1/19。 目前这个模型全面开源,训练代码和模型权重都可任意下载,商业使用也免费、无需授权。 源 2.0-M32 相关链接 代码开源: https://github.com/IEIT-Yuan/Yuan2.0-M32 论文地址: ht
………………………………