文章预览
©PaperWeekly 原创 · 作者 | Chong Jie 单位 | 上海交通大学 研究方向 | 参数高效微调 我们于 2024 年 9 月 2 日在 arXiv 提交了我们最新的工作——LoRA-Dash: 文章链接: https://arxiv.org/abs/2409.01035 代码链接: https://github.com/Chongjie-Si/Subspace-Tuning 项目主页: https://chongjiesi.site/project/2024-lora-dash.html 由于 LoRA-Dash 论文内容丰富,将 30 页的内容压缩到 10 页是一个极具挑战的任务。为此,我们在保持可读性与内容完整性之间做出了审慎的权衡与取舍。本文的出发点可能与原论文有所不同,反而更符合我们最初的动机和目标。 研究动机 1.1 top, bottom还是random? LoRA 已无需多作介绍,作为微调领域家喻户晓的方法之一,其影响广泛。在此前调研相关方法时,我注意到有几篇专门讨论 LoRA 初始化的研究工作: PISSA: 认为 LoRA 初始化中的矩阵 A 和 B 应对应于权重矩阵 W 的
………………………………