文章预览
LoRA-GA是利用奇异值分解(SVD)改进LoRA初始化的方法,侧重于下降梯度的对齐。MiLoRA 和 CorDA 思想相似,不过更多是从主成分的角度出发。 2024 || MiLoRA: 保留主要成分的大模型微调 2024 || CorDA: 内容相关的大模型主成分微调 1. 基本信息和摘要 论文题目 LoRA-GA: Low-Rank Adaptation with Gradient Approximation Arxiv: https://arxiv.org/pdf/2407 作者 Shaowen Wang, Linxi Yu, Jianli 研究单位 清华大学 解决问题 通过设计初始化来解决 LoRA收敛速度慢 的问题。 LoRA-GA的 核心思想 是通过初始化适配器权重 和 , 使得低秩矩阵乘积 的梯度在第一步就与完全微调的梯度对齐。 摘要 尽管LoRA在每次迭代中显著降低了计算和内存需求,但大量实证证据表明其 收敛速度比完全微调慢得 多,最终导致总体计算成本增加,并且测试性能有时更差。本文展示了精心的 初始化 (不改变架构和训练算法)可
………………………………