讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Self-MoE:具有自专业化专家的组合大语言模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-23 03:10
    

文章预览

24年6月来自Georgia Tech、MIT-IBM lab、MIT、UCSD和MBZUAI的论文“Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts”。 Self-MoE是一种将单独 LLM 转换为自专业化专家的复合模块化系统方法,称为 MiXSE(混合自专业化专家)。利用自专业化,用自生成的合成数据构建专家模块,每个模块都配备共享的基础 LLM 并结合自优化的路由。这允许对各种目标任务进行动态和特定能力的处理,从而增强整体能力,而无需大量人工标记的数据和添加的参数。实证结果表明,专业化 LLM 可能会在非专业任务上表现出潜在的性能权衡。另一方面,Self-MoE 在知识、推理、数学和编码等各种基准上都比基础 LLM 有显着的改进。它还始终优于其他方法,包括实例合并和权重合并,同时通过语义专家和路由的设计提供更好的灵活性和可解释性。 大语言模型 (LLM) 的显著成功 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览