专栏名称: NewBeeNLP

一个自然语言处理&人工智能的原创杂货铺子，希望能找到你喜欢的小玩意儿

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

青岛交通广播FM897 · 微信、DeepSeek，大消息！网友：太王炸 · 8 小时前

华商报 · 微信接入DeepSeek？腾讯回应 · 10 小时前

最红安 · 微信接入DeepSeek · 11 小时前

谷饶生活信息站 · 潮汕一村“标神前”！“开光”奥特曼被竞拍出6 ... · 21 小时前

政法频道 · 一湖融三城区域“芯”发展 ... · 昨天

今天看啥 › 专栏 › NewBeeNLP

快手HOME——PLE的进一步升级

NewBeeNLP · 公众号 · · 2024-10-21 11:05

文章预览

作者 | 老杨可爱多（已授权）整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/916726549 在工业界，广泛使用的多任务框架是专家混合（MoE）范式，它总是为每个任务引入一些共享的和特定的专家，然后使用门网络来衡量相关专家的贡献。 MMOE/PLE中存在极化现象，指的是mmoe的gate中，各个专家的权重不平衡；具体来说，有以下3点：（1）专家崩溃（针对所有专家）：我们发现所有专家的输出分布存在显着差异，并且一些专家使用 ReLU 的零激活率超过 90％，使得门网络很难分配公平的权重来平衡专家； (2) 专家降级（针对共享专家）：理想情况下，共享专家的目标是同时为所有任务提供预测信息。然而，我们发现一些共享专家只被一项任务占据，这表明共享专家失去了他们的能力，而是退化为一些特定专家。（3）专家欠拟合（针对特定专家）：在我 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

青岛交通广播FM897 · 微信、DeepSeek，大消息！网友：太王炸

8 小时前

青岛交通广播FM897 · 微信、DeepSeek，大消息！网友：太王炸

8 小时前

华商报 · 微信接入DeepSeek？腾讯回应

10 小时前

华商报 · 微信接入DeepSeek？腾讯回应

10 小时前

最红安 · 微信接入DeepSeek

11 小时前

最红安 · 微信接入DeepSeek

11 小时前

谷饶生活信息站 · 潮汕一村“标神前”！“开光”奥特曼被竞拍出6888元！

21 小时前

谷饶生活信息站 · 潮汕一村“标神前”！“开光”奥特曼被竞拍出6888元！

21 小时前

政法频道 · 一湖融三城区域“芯”发展看《长沙一分钟》邂逅绿心里的湖光春色

昨天

政法频道 · 一湖融三城区域“芯”发展看《长沙一分钟》邂逅绿心里的湖光春色

昨天

DataFunTalk · 云计算系统应对数据密集型应用快速发展的策略

8 月前

央视财经 · 假冒茅台，“特供酒”实为10元成本劣质酒！黑色产业链曝光

7 月前

神嘛事儿 · 有传闻说川普跳舞的样子像金渐层踩奶。。。。这。。。。。人必须要抓-20241114213032

3 月前