专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

ICML 2024 | 深入探寻LoRA的本质:一种对全量梯度的低秩投影

PaperWeekly  · 公众号  · 科研  · 2024-08-26 12:17

文章预览

©作者 |  何浩楠 单位 |  中国科学技术大学 研究方向 |  AI4Science 文章题目: FLORA: Low-Rank Adapters Are Secretly Gradient Compressors 文章地址: https://arxiv.org/pdf/2402.03293 这篇论文不仅带来了一种全新的高秩高效微调的算法,而且深入解读了 LoRA 的本质: LoRA 是一种对全量梯度的低秩投影 。 其实这种观点并不让人吃惊,我们在过去的许多论文中都可以看到这种观点的影子。 比如,LoRA-FA  提出不微调 LoRA中的 A 矩阵仅微调 LoRA 中的 B 矩阵;LoRA+ 提出使用更大的学习率微调 LoRA 中的 B 矩阵;ReLoRA/PLoRA/CoLA 等提出定期合并 LoRA 权重重新初始化。其实他们的本质都是本文的标题。 本文提出的方法实际上并没有比 LoRA 更加优秀,因为 LoRA 省显存的本质是,在使用 Adam 优化器时可以避免计算全量权重的一阶动量和二阶动量(这两个都必须用 fp32 表示,非常占显存), ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览