专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

CartesianMoE:通过笛卡尔积路由提升专家间的知识共享

AINLP  · 公众号  ·  · 2024-10-25 17:38
    

文章预览

大型语言模型(LLM)因其在下游任务中的优异表现备受关注。尽管扩展LLM可以提高其能力,但计算复杂性也随之增加。专家混合(MoE)模型通过扩大规模而不显著增加成本来缓解这一问题,但MoE模型的专家之间面临知识共享的挑战。为了解决这个问题,先前的工作提出以“相加”的方式实现知识共享,本文受到协同矩阵分解的启发提出了CartesianMoE,通过“相乘”的方式更有效地共享知识,实验结果显示其在困惑度、下游任务性能及路由鲁棒性方面优于现有MoE模型。 作者:苏振鹏 机构:中国科学院信息工程研究所 Arxiv:https://arxiv.org/abs/2410.16077 方法介绍 先前的共享专家的方式常通过“相加”的方式实现。例如,有一个共享专家 ,和几个可路由专家 , , ,专家的知识共享可以表示为 , , 。 受到协同矩阵分解的启发, 提出通过“相乘”的方式 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览