今天看啥  ›  专栏  ›  AI生成未来

如何拯救LoRA初始化?LoRA-GA:性能显著提升+收敛速度更快!

AI生成未来  · 公众号  ·  · 2024-08-04 07:00

文章预览

点击下方 卡片 ,关注“ AI生成未来 ” >>后台回复“GAI”,免费获取AI行业报告和资料! 作者:Shaowen Wang等 解读:AI生成未来.           文章链接:https://arxiv.org/pdf/2407.05000 亮点直击 提出了 LoRA-GA ,一种新颖的 LoRA 初始化方法, 通过近似低秩矩阵的梯度与全权重矩阵的梯度来加速收敛 。 确定了在非零初始化下的 缩放因子 ,该因子确保适配器输出的方差不受适配器的秩和输入维度的影响。 通过广泛的实验验证了 LoRA-GA,证明了与原版 LoRA 相比, 其性能显著提升且收敛速度更快 。具体而言,LoRA-GA 在 T5-Base 的 GLUE 子集上比 LoRA 提高了 5.69%,在 Llama 2-7B 上在 MT-bench、GSM8K 和 HumanEval 上分别提高了 0.34%、11.52% 和 5.05%,同时实现了高达 2-4 倍的收敛速度提升。 微调大规模预训练模型在计算和内存成本方面是非常昂贵的。LoRA 作为最流行的参数高效微 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览