讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

混合LLM:成本-高效且质量-觉察的查询路由

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-11 03:28
    

文章预览

24年4月来自加拿大UBC、微软和Hippocratic AI的论文“Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing”。 大语言模型 (LLM) 在大多数 NLP 任务中表现出色,但由于其规模较大,需要昂贵的云服务器进行部署,而可以部署在成本较低(例如边缘)设备上的小型模型往往在响应质量方面落后。这项工作提出一种混合推理方法,结合它们各自的优势以节省成本并保持质量。该方法使用路由器,该路由器根据预测的查询难度和所需的质量水平将查询分配给小型或大型模型。可以根据场景要求在测试时动态调整所需的质量水平,无缝地质量换成本。实验中对大型模型的调用次数减少了多达 40%,而响应质量没有下降。 最近的研究 [Kag et al., 2022, Ding et al., 2022] 引入了一种称为混合推理的新范式,它使用两个不同大小的模型而不是单个模型进行推理。较小的模型(例如 Lla ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览