ICML 2024 || FLEXTRON: 嵌套弹性结构的MOE

深度图学习与大模型LLM · 公众号 · · 2024-08-12 10:32

文章预览

1. 基本信息和摘要论文题目 FLEXTRON: Many-in-One Flexible Large Language Model Arxiv: https://arxiv.org/pdf/2406.10260 作者 Ruisi Cai, Saurav Muralidharan, Greg Heinrich, Hongxu Yin, Zhangyang Wang, Jan Kautz, Pavlo Molchanov 研究单位 NVIDIA The University of Texas at Austin 解决问题 Mixture-of-Expert (MoE) 网络是一种由多个专家（experts）组成的系统，每个专家负责处理输入数据的不同部分或不同种类的任务。与传统的密集（dense）模型相比，MoE网络在某些情况下更加高效，因为它们可以并行地利用多个专家来处理数据，从而提高计算效率和模型的扩展性。然而，MoE网络通常受限于仅在前馈层（feedforward layers）中使用，并且专家的数量和大小通常是固定的，这限制了模型的灵活性和对不同任务的适应性。作者提出自适应弹性网络（拓展到attention 和feedforward层），优点有：不同大小的子网络：根据不 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

河南新闻广播 · 河南省原统计局局长李迎伟，跨省调任

4 天前

滑州百事通 · 明天抵达！滑县未来几天…

4 天前

河南新闻广播 · 好消息！河南加快推进医疗机构医学检查检验结果互认

6 天前

滑州百事通 · 真好！滑县这俩小区可以办证了！

1 周前

滑州百事通 · 投资360万！滑县道口古镇又有新动作！

1 周前

微思教育 · 微思直播 | 缺竞赛、论文与实习，如何应对留学？北理学姐HKUST行前分享！

3 月前

央企求职网 · 中国移动终端公司2025校园招聘火热进行中

1 月前