文章预览
前言 LoRA是一种通过在模型的密集层中插入低秩矩阵来更新模型参数的技术。低秩矩阵(LoRA插件)可以独立于模型存储和重用,从而实现跨任务泛化。而且LoRA的参数数量显著少于全参数微调,这使得其在内存和计算需求方面具有显著优势。 1. Low-Rank Adaptation (LoRA) 1.1 Lora在实际应用中的效率优势 参数效率(Parameter Efficiency) :LoRA通过仅更新模型参数的一个小子集来实现参数效率,这减少了微调时所需的内存和计算需求,同时没有增加推理延迟。 内存使用减少(Reduced Memory Usage) :LoRA显著降低了微调大型语言模型(LLMs)时的内存使用量。这包括模型权重存储所需的内存、前向传播期间中间激活占用的内存、反向传播期间存储梯度所需的内存,以及优化器状态所需的内存。 实际效率比较(Empirical Efficiency Comparison) :在特定硬件配置下,使用批量
………………………………