专栏名称: NewBeeNLP
一个自然语言处理&人工智能的原创杂货铺子,希望能找到你喜欢的小玩意儿
目录
相关文章推荐
今天看啥  ›  专栏  ›  NewBeeNLP

快手HOME——PLE的进一步升级

NewBeeNLP  · 公众号  ·  · 2024-10-21 11:05

文章预览

作者 | 老杨可爱多(已授权)  整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/916726549 在工业界,广泛使用的多任务框架是专家混合(MoE)范式,它总是为每个任务引入一些共享的和特定的专家,然后使用门网络来衡量相关专家的贡献。 MMOE/PLE中存在极化现象,指的是mmoe的gate中,各个专家的权重不平衡;具体来说,有以下3点: (1)专家崩溃(针对所有专家):我们发现所有专家的 输出分布存在显着差异 ,并且一些专家使用 ReLU 的 零激活率 超过 90%,使得门网络很难分配公平的权重来平衡专家; (2) 专家降级(针对共享专家):理想情况下,共享专家的目标是同时为所有任务提供预测信息。然而,我们发现 一些共享专家只被一项任务占据 ,这表明共享专家失去了他们的能力,而是退化为一些特定专家。 (3)专家欠拟合(针对特定专家):在我 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览