专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

专知  · 公众号  · 科技自媒体  · 2025-01-06 11:00
    

主要观点总结

大型语言模型(LLM)在下游任务中的全量微调对计算资源需求巨大,参数高效微调(PEFT)方法虽被提出,但表现及内存效率有待提高。本研究提出了一种新的方法——梯度权重归一化低秩投影(GradNormLoRP),它在保持与全量微调相当的性能的同时,提升了参数和内存效率。通过归一化权重矩阵和改善梯度条件来促进优化过程,应用低秩近似减少内存使用。实验表明,GradNormLoRP降低了优化器内存使用,并在大规模LLM预训练、微调任务中表现出优于现有低秩方法的性能。

关键观点总结

关键观点1: 大型语言模型(LLM)在全量微调时面临计算资源挑战。

传统方法如参数高效微调(PEFT)在性能、内存效率方面存在不足。

关键观点2: 梯度权重归一化低秩投影(GradNormLoRP)方法被提出以解决计算资源问题。

它通过归一化权重矩阵和改善梯度条件促进优化过程,应用低秩近似降低内存使用。

关键观点3: GradNormLoRP在保持与全量微调相当的性能的同时,提升了参数和内存效率。

实验显示,它降低了优化器内存使用,并在大规模LLM预训练和微调任务中表现出优异性能。

关键观点4: GradNormLoRP在特定实验中的表现优于现有低秩方法。

例如,在对RoBERTa模型进行GLUE任务微调时,GradNormLoRP得分高于LoRA。


文章预览

大型语言模型(LLM)在各类任务中表现出色,但对计算资源的需求不断增加,特别是在下游任务中广泛使用全量微调时,带来了显著的挑战。为了解决这一问题,已经提出了参数高效微调(PEFT)方法,但它们往往表现不如全量微调,并且在内存效率方面存在困难。在本研究中,我们提出了一种新方法——梯度权重归一化低秩投影(GradNormLoRP),它在保持与全量微调相当的性能的同时,提升了参数和内存效率。GradNormLoRP 通过归一化权重矩阵来改善梯度的条件,从而促进优化过程中更好的收敛。此外,它对权重和梯度矩阵应用低秩近似,大幅减少了训练过程中的内存使用。大量实验表明,我们的 8 位 GradNormLoRP 能够将优化器的内存使用减少最多 89.5%,并使得大规模 LLM(如 LLaMA 7B)能够在消费者级 GPU(如 NVIDIA RTX 4090)上进行预训练,而无需额外的推理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览