Self-MoE：具有自专业化专家的组合大语言模型

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-07-23 03:10

文章预览

24年6月来自Georgia Tech、MIT-IBM lab、MIT、UCSD和MBZUAI的论文“Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts”。 Self-MoE是一种将单独 LLM 转换为自专业化专家的复合模块化系统方法，称为 MiXSE（混合自专业化专家）。利用自专业化，用自生成的合成数据构建专家模块，每个模块都配备共享的基础 LLM 并结合自优化的路由。这允许对各种目标任务进行动态和特定能力的处理，从而增强整体能力，而无需大量人工标记的数据和添加的参数。实证结果表明，专业化 LLM 可能会在非专业任务上表现出潜在的性能权衡。另一方面，Self-MoE 在知识、推理、数学和编码等各种基准上都比基础 LLM 有显着的改进。它还始终优于其他方法，包括实例合并和权重合并，同时通过语义专家和路由的设计提供更好的灵活性和可解释性。大语言模型 (LLM) 的显著成功 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博