专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

专家模型不要专家并行！微软开源MoE新路径

新智元 · 公众号 · AI · 2024-11-11 13:05

文章预览

新智元报道编辑：alan 【新智元导读】近日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后，微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头（16 * 3.8B），却采用了截然不同的训练方法。这个「不走寻常路」如果写个太长不看版，那就是两句话： 1. 使用新一代SparseMixer来精确估计专家路由的梯度，解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了，训练中改用数据、pipeline和张量并行，避免了传统方法丢弃token的问题。论文地址：https://arxiv.org/abs/2409.12136 当然了，上面两句话是小编说的，多少有点糙，文中细节，还请诸君继续阅读~ 这年头，新来一个LLM，当然要先刷分了—— 参数要少，效果要好，所以要在左上角： GRIN作为MoE架构，总 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

最江阴 · 突然宣布：最高降价75%！

昨天

最江阴 · 突然宣布：最高降价75%！

昨天

爱可可-爱生活 · 整合人类偏好与可验证正确性信号的可靠奖励系统查看图片 //-20250302063953

2 天前

爱可可-爱生活 · 本文创新性地提出了分形生成模型 FGM，通过递归组合原子生成模块-20250302054641

2 天前

宝玉xp · GPT-4.5: 宝玉，咱们先认清楚自己吧——你明显是那种聚会里-20250301200608

2 天前

爱可可-爱生活 · 【[1.9k星]SQLPage：仅用SQL构建数据应用的快速开发-20250301193058

2 天前

艾锋降级 · 不会吧！新版 Cydia 越狱已发布，你还会用吗？

9 月前

物流沙龙 · 菜鸟全面接入京东平台；京东物流成为山东应急保障企业；中国邮政与汉莎货运航空达成战略合作等

4 月前

CFC商品策略研究 · 【棉花纺谈】盘盘近几年的节前行情

2 月前