文章预览
注明: 本文与Deep LoRA核心思想相似,都发现了权重矩阵的 低秩 性,并提出在全参数下利用低秩子空间进行训练的优化策略。不同的是, - Deep LoRA 侧重于微调,需要额外添加微调矩阵,然后更新权重梯度有变化的参数。 - GaLore则采用另外一种思路:直接在全部参数矩阵基础上降维,然后再使用优化器,预训练和微调阶段均适用,在大量减少内存消耗的前提下保证性能。 ICML 2024 Oral || Deep LoRA: 基于子空间不变性的模型压缩与优化 1. 基本信息和摘要 论文题目 GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection Arxiv: https://arxiv.org/pdf/2403.03507 Code: https://github.com/jiaweizzhao/GaLore 作者 Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, Yuandong Tian 作者研究单位 California Institute of Technology Meta AI University of Texas at Austin Carnegie Mellon University 拟解决问题 大型语
………………………………