专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

专家模型不要专家并行!微软开源MoE新路径

新智元  · 公众号  · AI  · 2024-11-11 13:05

文章预览

   新智元报道   编辑:alan 【新智元导读】 近日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。 继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。 与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。 这个「不走寻常路」如果写个太长不看版,那就是两句话: 1. 使用新一代SparseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了,训练中改用数据、pipeline和张量并行,避免了传统方法丢弃token的问题。 论文地址:https://arxiv.org/abs/2409.12136 当然了,上面两句话是小编说的,多少有点糙,文中细节,还请诸君继续阅读~ 这年头,新来一个LLM,当然要先刷分了—— 参数要少,效果要好,所以要在左上角: GRIN作为MoE架构,总 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览