文章预览
来源 :DeepHub IMBA 本文 约2400字 ,建议阅读 5 分钟 本文将看到如何将vLLM与多个LoRA适配器一起使用。 我们都知道,使用LoRA适配器可以定制大型语言模型(LLM)。并且适配器必须加载在在LLM之上,对于某些应用程序,为用户提供多个适配器可能很有用。例如,一个适配器可以执行函数调用,而另一个适配器可以执行非常不同的任务,例如分类、翻译或其他语言生成任务。 但是要使用多个适配器,标准推理框架必须首先卸载当前适配器,然后加载新适配器。这个卸载/加载序列可能需要几秒钟,这会降低用户体验。 有一些开源框架可以同时为多个适配器提供服务,而使用两个不同适配器之间没有明显的时间间隔。例如,vLLM 可以轻松地同时运行和服务多个LoRA适配器。 在本文中,我们将看到如何将vLLM与多个LoRA适配器一起使用。我将解释如何将LoRA适配器与
………………………………