关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

2024 || Q-GaLore: 16G内存训练LLaMA 7B!

深度图学习与大模型LLM  · 公众号  ·  · 2024-08-09 21:35

文章预览

本文为GaLore的改进版, 能够减少SVD操作,并通过量化进一步降低内存。主要包括:1)动态调整子空间投影变换的频率;2)量化子空间参数。 ICML 2024 Oral || GaLore: 大模型加速优化新策略 基本信息和摘要 论文题目 Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients Arxiv: https://arxiv.org/pdf/2407.08296 Code:  https://github.com/VITA-Group/Q-GaLore 作者 Zhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang 研究单位 1. University of Texas at Austin 2. University of Surrey 3. University of Oxford 4. California Institute of Technology 5. Meta AI 解决问题 GaLore通过SVD实现全参数低秩梯度更新,成为了一个显著的候选方法。该方法将LLaMA模型总训练内存需求减少了高达63.3%,使得仅需24GB内存即可训练7B模型。在GaLore基础上,进一步 提高大模型内存使用效率 。 Q-GaLore的 核心改动 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览