如何拯救LoRA初始化？LoRA-GA：性能显著提升+收敛速度更快！

AI生成未来 · 公众号 · · 2024-08-04 07:00

文章预览

点击下方卡片，关注“ AI生成未来 ” >>后台回复“GAI”，免费获取AI行业报告和资料！作者：Shaowen Wang等解读：AI生成未来. 文章链接：https://arxiv.org/pdf/2407.05000 亮点直击提出了 LoRA-GA ，一种新颖的 LoRA 初始化方法，通过近似低秩矩阵的梯度与全权重矩阵的梯度来加速收敛。确定了在非零初始化下的缩放因子，该因子确保适配器输出的方差不受适配器的秩和输入维度的影响。通过广泛的实验验证了 LoRA-GA，证明了与原版 LoRA 相比，其性能显著提升且收敛速度更快。具体而言，LoRA-GA 在 T5-Base 的 GLUE 子集上比 LoRA 提高了 5.69%，在 Llama 2-7B 上在 MT-bench、GSM8K 和 HumanEval 上分别提高了 0.34%、11.52% 和 5.05%，同时实现了高达 2-4 倍的收敛速度提升。微调大规模预训练模型在计算和内存成本方面是非常昂贵的。LoRA 作为最流行的参数高效微 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博