文章预览
24年6月来自澳大利亚Monash大学、商汤科技、北航和浙大的论文“ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models”。 LLM 开发的典型过程包括在海量数据上预训练通用基础模型,然后在特定任务数据上进行微调以获得一系列专业专家。为这些专家提供服务可能带来重大挑战,因为将所有专家加载到设备上是不切实际的,并且根据用户请求在专家之间频繁切换会产生大量 I/O 成本,从而导致延迟和服务费用显著增加。以前的方法将专家权重分解为预训练模型的权重和残差增量权重,然后使用输出通道步长量化增量权重以减小模型大小。然而,这些方法忽略了一个事实,即增量权重的某些输入通道,在极低的位宽下会导致显著的量化误差。此外,现有方法假设预先知道适合用户请求的模型,而实际情况并非如此。 ME-Switch,一种专为 LLM 服
………………………………