专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

使用vLLM在一个基座模型上部署多个lora适配器

数据派THU  · 公众号  · 大数据  · 2024-08-18 17:00
    

文章预览

来源 :DeepHub IMBA 本文 约2400字 ,建议阅读 5 分钟 本文将看到如何将vLLM与多个LoRA适配器一起使用。 我们都知道,使用LoRA适配器可以定制大型语言模型(LLM)。并且适配器必须加载在在LLM之上,对于某些应用程序,为用户提供多个适配器可能很有用。例如,一个适配器可以执行函数调用,而另一个适配器可以执行非常不同的任务,例如分类、翻译或其他语言生成任务。 但是要使用多个适配器,标准推理框架必须首先卸载当前适配器,然后加载新适配器。这个卸载/加载序列可能需要几秒钟,这会降低用户体验。 有一些开源框架可以同时为多个适配器提供服务,而使用两个不同适配器之间没有明显的时间间隔。例如,vLLM 可以轻松地同时运行和服务多个LoRA适配器。 在本文中,我们将看到如何将vLLM与多个LoRA适配器一起使用。我将解释如何将LoRA适配器与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览