文章预览
24年6月来自Georgia Tech、MIT-IBM lab、MIT、UCSD和MBZUAI的论文“Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts”。 Self-MoE是一种将单独 LLM 转换为自专业化专家的复合模块化系统方法,称为 MiXSE(混合自专业化专家)。利用自专业化,用自生成的合成数据构建专家模块,每个模块都配备共享的基础 LLM 并结合自优化的路由。这允许对各种目标任务进行动态和特定能力的处理,从而增强整体能力,而无需大量人工标记的数据和添加的参数。实证结果表明,专业化 LLM 可能会在非专业任务上表现出潜在的性能权衡。另一方面,Self-MoE 在知识、推理、数学和编码等各种基准上都比基础 LLM 有显着的改进。它还始终优于其他方法,包括实例合并和权重合并,同时通过语义专家和路由的设计提供更好的灵活性和可解释性。 大语言模型 (LLM) 的显著成功
………………………………