文章预览
来源:专知 本文 约1000字 ,建议阅读 5 分钟 在本研究中,我们提出了一种新方法——梯度权重归一化低秩投影(GradNormLoRP)。 大型语言模型(LLM)在各类任务中表现出色,但对计算资源的需求不断增加,特别是在下游任务中广泛使用全量微调时,带来了显著的挑战。为了解决这一问题,已经提出了参数高效微调(PEFT)方法,但它们往往表现不如全量微调,并且在内存效率方面存在困难。在本研究中,我们提出了一种新方法——梯度权重归一化低秩投影(GradNormLoRP),它在保持与全量微调相当的性能的同时,提升了参数和内存效率。GradNormLoRP 通过归一化权重矩阵来改善梯度的条件,从而促进优化过程中更好的收敛。此外,它对权重和梯度矩阵应用低秩近似,大幅减少了训练过程中的内存使用。大量实验表明,我们的 8 位 GradNormLoRP 能够将优化器的
………………………………