讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

路由到专家:高效奖励引导的大语言模型集成

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-26 00:04
    

文章预览

23年11月来自阿里的论文“Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models”。 假设现成的 LLM 在广泛的专业域和任务中具有异构的专业知识,大语言模型 (LLM) 这种互补潜能,LLM 集成可以始终如一地实现更好的性能。现有的 LLM 集成方法主要关注输出的奖励模型排名,导致计算开销很大。为了解决这个问题,使用现成的奖励模型挖掘潜在专业知识。ZOOTER 是一种奖励引导的路由方法,它蒸馏训练查询的奖励来训练一个路由函数,它可以将每个查询精确地分配给具有专业知识的 LLM。还集成一个基于标签(tag)的标签(label)增强功能,在奖励作为银监督时减轻不确定性带来的噪音。与奖励模型排名方法相比,ZOOTER 在推理方面表现出计算效率,因为它只引入路由函数较小的计算开销。 如图所示是大语言模型集合的示例。蓝色的奖励模型排名 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览