讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

学习在专业化专家之间进行路由实现零样本泛化

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-08 00:04
    

文章预览

24年6月来自MIT-IBM实验室、多伦多大学、Vector Institute和UNC的论文“Learning to Route Among Specialized Experts for Zero-Shot Generalization”。 最近,通过参数高效微调(PEFT)专门用于特定任务或领域的“专家”语言模型得到了广泛采用。如何才能从大量专家语言模型提高对未见过任务的零样本泛化能力?这项工作提出事后因果自适应逐token的门控(PHATGOOSE),它可以学习在PEFT生成的专业化模块之间进行路由。与过去学习在专业化模型之间进行路由的方法不同,PHATGOOSE 探索了如果可以为每个token和模型的每一层自适应地选择不同的专家,那么零样本泛化能力将得到改善的可能性。至关重要的是,该方法是事后因果方法 - 它不需要同时访问用于创建专业化模型的数据集,并且在每个专家模型训练完成后只需要少量额外的计算。在涵盖一系列专业化模型和零样本泛化基 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览