专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

低内存占用也能实现满血训练?!北理北大港中文MMLab推出Fira训练框架

量子位  · 公众号  · AI  · 2024-10-20 16:14
    

文章预览

Fira团队 投稿 量子位 | 公众号 QbitAI 内存占用小,训练表现也要好……大模型训练成功实现二者兼得。 来自北理、北大和港中文MMLab的研究团队提出了一种满足 低秩约束 的 大模型全秩训练框架 —— Fira ,成功打破了传统低秩方法中内存占用与训练表现的“非此即彼”僵局。 展开来说—— 为了突破内存瓶颈,许多 低秩训练 方法应运而生,如LoRA(分解 参数矩阵 )和GaLore(分解 梯度矩阵 )。 △ 图1:从宏观层面分析三种内存高效低秩训练方法 然而,如上图所示,LoRA将训练局限于参数的低秩子空间,降低了模型的表征能力,难以实现预训练;GaLore将训练局限于梯度的低秩子空间,造成了子空间外梯度的信息损失。 相较于全秩训练,这两种方法由于施加了低秩约束,会导致训练表现有所下降。 但是,若提高秩值,则会相应地增加内存占用。 因此 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览