专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

大模型“取长补短”新思路入选NeurIPS'24,显著优于现有路由方法,南科大港科大出品

量子位  · 公众号  · AI  · 2024-11-14 17:10

文章预览

RouterDC团队 投稿 量子位 | 公众号 QbitAI 高效组合多个大模型“取长补短”新思路,被顶会NeurIPS 2024接收。 名为 RouterDC ,是一种基于 双重对比学习 的路由架构,具有参数高效性 (小于100M的参数) 和计算高效性 (不需要对于LLM进行梯度回传) 的优势。 在具有挑战性语言理解、代码生成和数学推理等推理任务实验中,RouterDC在分布内 (+2.76%) 和分布外 (+1.90%) 设定下,都远超于现有的routing方法。 众所周知,LLM通常在不同数据集上预训练和微调,导致它们在不同任务上的性能强弱不同。 LLM路由则是一种组合多个LLM的新思路,它通过学习一个路由器 (Router) 来为每一个请求 (query) 选择最合适的LLM。在 推理时,LLM路由只需要调用所选的LLM进行推理,使其在保持计算高效性的同时利用多个LLM的互补能力。 RouterDC这种新方法,包括 一个较小的语言 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览