关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
田俊国讲坛  ·  【12月7日】 ... ·  昨天  
地图帝  ·  【代王城城址】 ·  2 天前  
地图帝  ·  【代王城城址】 ·  2 天前  
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

2024 || LoRA-GA: 梯度近似的LoRA

深度图学习与大模型LLM  · 公众号  ·  · 2024-07-19 08:38

文章预览

LoRA-GA是利用奇异值分解(SVD)改进LoRA初始化的方法,侧重于下降梯度的对齐。MiLoRA 和 CorDA 思想相似,不过更多是从主成分的角度出发。 2024 || MiLoRA: 保留主要成分的大模型微调 2024 || CorDA: 内容相关的大模型主成分微调 1. 基本信息和摘要 论文题目 LoRA-GA: Low-Rank Adaptation with Gradient Approximation Arxiv: https://arxiv.org/pdf/2407 作者 Shaowen Wang, Linxi Yu, Jianli 研究单位 清华大学 解决问题 通过设计初始化来解决 LoRA收敛速度慢 的问题。 LoRA-GA的 核心思想 是通过初始化适配器权重 和 , 使得低秩矩阵乘积 的梯度在第一步就与完全微调的梯度对齐。 摘要 尽管LoRA在每次迭代中显著降低了计算和内存需求,但大量实证证据表明其 收敛速度比完全微调慢得 多,最终导致总体计算成本增加,并且测试性能有时更差。本文展示了精心的 初始化 (不改变架构和训练算法)可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览