专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

专知 · 公众号 · 科技自媒体 · 2025-01-06 11:00

主要观点总结

大型语言模型（LLM）在下游任务中的全量微调对计算资源需求巨大，参数高效微调（PEFT）方法虽被提出，但表现及内存效率有待提高。本研究提出了一种新的方法——梯度权重归一化低秩投影（GradNormLoRP），它在保持与全量微调相当的性能的同时，提升了参数和内存效率。通过归一化权重矩阵和改善梯度条件来促进优化过程，应用低秩近似减少内存使用。实验表明，GradNormLoRP降低了优化器内存使用，并在大规模LLM预训练、微调任务中表现出优于现有低秩方法的性能。

关键观点总结

关键观点1: 大型语言模型（LLM）在全量微调时面临计算资源挑战。

传统方法如参数高效微调（PEFT）在性能、内存效率方面存在不足。

关键观点2: 梯度权重归一化低秩投影（GradNormLoRP）方法被提出以解决计算资源问题。

它通过归一化权重矩阵和改善梯度条件促进优化过程，应用低秩近似降低内存使用。

关键观点3: GradNormLoRP在保持与全量微调相当的性能的同时，提升了参数和内存效率。

实验显示，它降低了优化器内存使用，并在大规模LLM预训练和微调任务中表现出优异性能。

关键观点4: GradNormLoRP在特定实验中的表现优于现有低秩方法。

例如，在对RoBERTa模型进行GLUE任务微调时，GradNormLoRP得分高于LoRA。

文章预览

大型语言模型（LLM）在各类任务中表现出色，但对计算资源的需求不断增加，特别是在下游任务中广泛使用全量微调时，带来了显著的挑战。为了解决这一问题，已经提出了参数高效微调（PEFT）方法，但它们往往表现不如全量微调，并且在内存效率方面存在困难。在本研究中，我们提出了一种新方法——梯度权重归一化低秩投影（GradNormLoRP），它在保持与全量微调相当的性能的同时，提升了参数和内存效率。GradNormLoRP 通过归一化权重矩阵来改善梯度的条件，从而促进优化过程中更好的收敛。此外，它对权重和梯度矩阵应用低秩近似，大幅减少了训练过程中的内存使用。大量实验表明，我们的 8 位 GradNormLoRP 能够将优化器的内存使用减少最多 89.5%，并使得大规模 LLM（如 LLaMA 7B）能够在消费者级 GPU（如 NVIDIA RTX 4090）上进行预训练，而无需额外的推理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

贵州省生态环境厅 · 贵州生态环境一周要闻（04.21-04.27）

昨天

贵州省生态环境厅 · 贵州生态环境一周要闻（04.21-04.27）

昨天

李楠或kkk · iPhone 17 air 太宽了（5.7x 厚，75 宽）。。-20250427143019

2 天前

李楠或kkk · 回复@Three-seconds___新一:薄的没有结果啊，太宽-20250427143512

2 天前

邳州银杏甲天下 · 搭把手｜多家商铺长期漏水，记者调查竟发现…...

2 天前

邳州银杏甲天下 · 搭把手｜多家商铺长期漏水，记者调查竟发现…...

2 天前

sven_shi · 我回答了 @一个从小爱看球的人的问题，我觉得你对房贷的理解可能-20250427000127

2 天前

奇点网 · 《自然·代谢》：红肉补铁亦有风险？20万人36年随访发现，多摄入血红素铁与2型糖尿病风险增加26%有关

8 月前

北京本地宝 · 答案来啦！北京小客车指标摇号5个常见问题！

5 月前

广州初高君 · 2025年中考大事记！

3 月前

江苏新闻 · 治愈无数人的小天使“悟空”去世！网友泪奔：终究逃不过突如其来的离别……

1 周前