文章预览
24年3月来自Meta FAIR的论文“Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM”。 有效地训练大语言模型 (LLM) ,可以使其具备多个专业领域的能力,例如编码、数学推理和世界知识。该方法名为 Branch-Train-MiX (BTX),从种子模型开始,以高吞吐量和低通信成本高度并行地进行专家训练。在对各个专家进行异步训练后,BTX 将其前馈参数汇集在混合专家 (MoE) 层中作为专家,并对剩余参数取平均值,然后进行 MoE 微调阶段学习 token 级的路由。BTX 泛化两种特殊情况,一是 Branch-Train-Merge 方法,没有经过 MoE 微调阶段学习路由,二是稀疏升级改造(sparse upcycling),省略这个异步训练专家的阶段。与其他方法相比,BTX 实现最佳的准确率-效率权衡。 近年来,大语言模型 (LLM) 在各种任务中表现出色 (Brown,2020;Touvron,2023;Achiam,2023),包括代码生成 (Li,2022b;Roz
………………………………