关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

ICML 2024 Oral || DaLore: 大模型加速优化新策略

深度图学习与大模型LLM  · 公众号  ·  · 2024-07-07 22:54

文章预览

注明: 本文与Deep LoRA核心思想相似,都发现了权重矩阵的 低秩 性,并提出在全参数下利用低秩子空间进行训练的优化策略。不同的是, - Deep LoRA 侧重于微调,需要额外添加微调矩阵,然后更新权重梯度有变化的参数。 - GaLore则采用另外一种思路:直接在全部参数矩阵基础上降维,然后再使用优化器,预训练和微调阶段均适用,在大量减少内存消耗的前提下保证性能。 ICML 2024 Oral || Deep LoRA: 基于子空间不变性的模型压缩与优化 1. 基本信息和摘要 论文题目 GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection Arxiv: https://arxiv.org/pdf/2403.03507 Code: https://github.com/jiaweizzhao/GaLore 作者 Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, Yuandong Tian 作者研究单位 California Institute of Technology Meta AI University of Texas at Austin Carnegie Mellon University 拟解决问题 大型语 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览