文章预览
点击下方 卡片 ,关注“ AI生成未来 ” >>后台回复“GAI”,免费获取AI行业报告和资料! 作者:Shaowen Wang等 解读:AI生成未来. 文章链接:https://arxiv.org/pdf/2407.05000 亮点直击 提出了 LoRA-GA ,一种新颖的 LoRA 初始化方法, 通过近似低秩矩阵的梯度与全权重矩阵的梯度来加速收敛 。 确定了在非零初始化下的 缩放因子 ,该因子确保适配器输出的方差不受适配器的秩和输入维度的影响。 通过广泛的实验验证了 LoRA-GA,证明了与原版 LoRA 相比, 其性能显著提升且收敛速度更快 。具体而言,LoRA-GA 在 T5-Base 的 GLUE 子集上比 LoRA 提高了 5.69%,在 Llama 2-7B 上在 MT-bench、GSM8K 和 HumanEval 上分别提高了 0.34%、11.52% 和 5.05%,同时实现了高达 2-4 倍的收敛速度提升。 微调大规模预训练模型在计算和内存成本方面是非常昂贵的。LoRA 作为最流行的参数高效微
………………………………