文章预览
作者 | 老杨可爱多(已授权) 整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/916726549 在工业界,广泛使用的多任务框架是专家混合(MoE)范式,它总是为每个任务引入一些共享的和特定的专家,然后使用门网络来衡量相关专家的贡献。 MMOE/PLE中存在极化现象,指的是mmoe的gate中,各个专家的权重不平衡;具体来说,有以下3点: (1)专家崩溃(针对所有专家):我们发现所有专家的 输出分布存在显着差异 ,并且一些专家使用 ReLU 的 零激活率 超过 90%,使得门网络很难分配公平的权重来平衡专家; (2) 专家降级(针对共享专家):理想情况下,共享专家的目标是同时为所有任务提供预测信息。然而,我们发现 一些共享专家只被一项任务占据 ,这表明共享专家失去了他们的能力,而是退化为一些特定专家。 (3)专家欠拟合(针对特定专家):在我
………………………………