专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ICML 2024 | 深入探寻LoRA的本质：一种对全量梯度的低秩投影

PaperWeekly · 公众号 · 科研 · 2024-08-26 12:17

文章预览

©作者 | 何浩楠单位 | 中国科学技术大学研究方向 | AI4Science 文章题目： FLORA: Low-Rank Adapters Are Secretly Gradient Compressors 文章地址： https://arxiv.org/pdf/2402.03293 这篇论文不仅带来了一种全新的高秩高效微调的算法，而且深入解读了 LoRA 的本质： LoRA 是一种对全量梯度的低秩投影。其实这种观点并不让人吃惊，我们在过去的许多论文中都可以看到这种观点的影子。比如，LoRA-FA 提出不微调 LoRA中的 A 矩阵仅微调 LoRA 中的 B 矩阵；LoRA+ 提出使用更大的学习率微调 LoRA 中的 B 矩阵；ReLoRA/PLoRA/CoLA 等提出定期合并 LoRA 权重重新初始化。其实他们的本质都是本文的标题。本文提出的方法实际上并没有比 LoRA 更加优秀，因为 LoRA 省显存的本质是，在使用 Adam 优化器时可以避免计算全量权重的一阶动量和二阶动量（这两个都必须用 fp32 表示，非常占显存）， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

弗雷赛斯 · SCI查重，你可能已经被坑了...

2 天前

募格学术 · 科技部：对短期内发表多篇论文的，开展实证核验！

昨天

科研大匠 · 最新：1本中科院1区Top 期刊、1本2区Top期刊，被剔除！

3 天前

PaperWeekly · NeurIPS 2024 | 利用概念激活向量破解大模型的安全对齐，人大&港科大揭示LLM重要安全风险漏洞

4 天前

募格学术 · ChatGPT3.5两周年，你的科研工具AI了吗？

5 天前

贝壳社 · 【报名开启】BIC2024第六届亚洲生物制品创新峰会邀您九月相聚！

4 月前

小齐的公考常识 · ※常识一题717※可食用菌

2 月前

功夫房产 · 血压飙升！这12个盘谁买谁倒霉

1 月前