关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

ICML 2024 || FLEXTRON: 嵌套弹性结构的MOE

深度图学习与大模型LLM  · 公众号  ·  · 2024-08-12 10:32

文章预览

1. 基本信息和摘要 论文题目 FLEXTRON: Many-in-One Flexible Large Language Model Arxiv: https://arxiv.org/pdf/2406.10260 作者 Ruisi Cai, Saurav Muralidharan, Greg Heinrich, Hongxu Yin, Zhangyang Wang, Jan Kautz, Pavlo Molchanov 研究单位 NVIDIA The University of Texas at Austin 解决问题 Mixture-of-Expert (MoE) 网络是一种由多个专家(experts)组成的系统,每个专家负责处理输入数据的不同部分或不同种类的任务。与传统的密集(dense)模型相比,MoE网络在某些情况下更加高效,因为它们可以并行地利用多个专家来处理数据,从而提高计算效率和模型的扩展性。然而,MoE网络 通常受限于仅在前馈层(feedforward layers)中使用 ,并且 专家的数量和大小通常是固定的 ,这限制了模型的灵活性和对不同任务的适应性。 作者提出自适应弹性网络( 拓展到attention 和feedforward层),优点有: 不同大小的子网络 :根据不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览