文章预览
1. 基本信息和摘要 论文题目 FLEXTRON: Many-in-One Flexible Large Language Model Arxiv: https://arxiv.org/pdf/2406.10260 作者 Ruisi Cai, Saurav Muralidharan, Greg Heinrich, Hongxu Yin, Zhangyang Wang, Jan Kautz, Pavlo Molchanov 研究单位 NVIDIA The University of Texas at Austin 解决问题 Mixture-of-Expert (MoE) 网络是一种由多个专家(experts)组成的系统,每个专家负责处理输入数据的不同部分或不同种类的任务。与传统的密集(dense)模型相比,MoE网络在某些情况下更加高效,因为它们可以并行地利用多个专家来处理数据,从而提高计算效率和模型的扩展性。然而,MoE网络 通常受限于仅在前馈层(feedforward layers)中使用 ,并且 专家的数量和大小通常是固定的 ,这限制了模型的灵活性和对不同任务的适应性。 作者提出自适应弹性网络( 拓展到attention 和feedforward层),优点有: 不同大小的子网络 :根据不
………………………………