文章预览
注明: 本文方法和LoRA+一样,都是解决模型无穷宽度(∞-width)时LoRA训练结果次优的问题。LoRA+通过对 矩阵设置不同的学习率,并只提供了调参的经验参考。本文提供了一个更优雅且实用的解决方案,提高优化的收敛性,可靠性和鲁棒性。 ICML 2024 || LoRA+: 提升模型微调效率的秘诀 1. 基本信息和摘要 论文题目 Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models Arxiv: https://arxiv.org/pdf/2402.02347 Code: https://github.com/pilancilab/Riemannian_Preconditioned_LoRA 作者 Fangzhao Zhang, Mert Pilanci 作者研究单位 Department of Electrical Engineering, Stanford University 解决问题 神经网络宽度(表征维度大小)无穷大的时候(∞-width),LoRA结果次优。LoRA+通过为 和 矩阵设置不同学习率来改善这个问题,并通过实验建议学习率比例为 。这个方法 不能立即提供实际指导 。 本文为稳定特征学习提供
………………………………