专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

对齐全量微调!这是我看过最精彩的LoRA改进

PaperWeekly  · 公众号  · 科研  · 2024-07-31 22:32
    

主要观点总结

本文介绍了对齐全量微调的工作LoRA-Pro,它与之前的LoRA-GA互补,通过修改优化器的更新规则使得LoRA的每一步更新都尽量与全量微调对齐。文章还包含了实验结果的展示和关于初始化的讨论。

关键观点总结

关键观点1: LoRA-Pro的工作机制

LoRA-Pro通过对优化器的更新规则进行修改,使得LoRA的每一步更新都尽量与全量微调对齐。它通过对全量微调的梯度进行近似,然后用于Adam优化器的更新方向。

关键观点2: 实验结果

LoRA-Pro在GLUE上的实验结果超过了全量微调的结果。

关键观点3: 初始化讨论

LoRA-Pro的初始化采用了符合直觉的正交初始化,即让初始的A,B是单位阵(的若干倍)。之前的工作LoRA-GA给出的初始化也是正交初始化。


文章预览

©PaperWeekly 原创 · 作者 |  苏剑林 单位 |  科学空间 研究方向 |  NLP、神经网络 前两周笔者写了 《对齐全量微调!这是我看过最精彩的LoRA》 (当时还没有编号“一”),里边介绍了一个名为“LoRA-GA”的 LoRA 变体,它通过梯度 SVD 来改进 LoRA 的初始化,从而实现 LoRA 与全量微调的对齐。当然,从理论上来讲,这样做也只能尽量对齐第一步更新后的 ,所以当时就有读者提出了“后面的 不管了吗?”的疑问,当时笔者也没想太深入,就单纯觉得对齐了第一步后,后面的优化也会严格一条较优的轨迹走。 有趣的是,LoRA-GA 才出来没多久,arXiv 上就新出了《LoRA-Pro: Are Low-Rank Adapters Properly Optimized?》 [1] ,其所提的 LoRA-Pro 正好能回答这个问题!LoRA-Pro 同样是想着对齐全量微调,但它对齐的是每一步梯度,从而对齐整条优化轨迹,这正好是跟 LoRA-GA 互补的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览