讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Branch-Train-MiX:将专家LLM混合为混合专家LLM

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-08 00:04
    

文章预览

24年3月来自Meta FAIR的论文“Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM”。 有效地训练大语言模型 (LLM) ,可以使其具备多个专业领域的能力,例如编码、数学推理和世界知识。该方法名为 Branch-Train-MiX (BTX),从种子模型开始,以高吞吐量和低通信成本高度并行地进行专家训练。在对各个专家进行异步训练后,BTX 将其前馈参数汇集在混合专家 (MoE) 层中作为专家,并对剩余参数取平均值,然后进行 MoE 微调阶段学习 token 级的路由。BTX 泛化两种特殊情况,一是 Branch-Train-Merge 方法,没有经过 MoE 微调阶段学习路由,二是稀疏升级改造(sparse upcycling),省略这个异步训练专家的阶段。与其他方法相比,BTX 实现最佳的准确率-效率权衡。 近年来,大语言模型 (LLM) 在各种任务中表现出色 (Brown,2020;Touvron,2023;Achiam,2023),包括代码生成 (Li,2022b;Roz ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览