文章预览
RouterDC团队 投稿 量子位 | 公众号 QbitAI 高效组合多个大模型“取长补短”新思路,被顶会NeurIPS 2024接收。 名为 RouterDC ,是一种基于 双重对比学习 的路由架构,具有参数高效性 (小于100M的参数) 和计算高效性 (不需要对于LLM进行梯度回传) 的优势。 在具有挑战性语言理解、代码生成和数学推理等推理任务实验中,RouterDC在分布内 (+2.76%) 和分布外 (+1.90%) 设定下,都远超于现有的routing方法。 众所周知,LLM通常在不同数据集上预训练和微调,导致它们在不同任务上的性能强弱不同。 LLM路由则是一种组合多个LLM的新思路,它通过学习一个路由器 (Router) 来为每一个请求 (query) 选择最合适的LLM。在 推理时,LLM路由只需要调用所选的LLM进行推理,使其在保持计算高效性的同时利用多个LLM的互补能力。 RouterDC这种新方法,包括 一个较小的语言
………………………………