专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【ICML 2024】零阶优化器微调大模型,大幅降低内存

专知  · 公众号  · 科技自媒体  · 2024-07-09 14:00
    

主要观点总结

本文介绍了零阶优化器在大型语言模型微调中的广泛应用。通过利用损失差分来近似梯度,零阶优化方法避免了反向传播和激活存储的需求,极大地节省了内存资源。文章涵盖了六种无需反向传播(BP-free)的优化器、五种大模型、三种不同复杂度的任务、四种微调方案的系统评测,并推出了三种增强零阶优化器的全新算法。研究指出零阶优化器在内存占用上有远超传统一阶优化器的优势,但一阶优化器的性能往往更好,因此结合两者可达到内存使用和性能之间的平衡。文章还深入探讨了任务对齐和前向梯度的关键作用,并提出了分块优化、混合训练、梯度稀疏化等技术以增强零阶优化器性能。

关键观点总结

关键观点1: 零阶优化器无需保存计算图,通过有限差分近似计算网络梯度,大大减少神经网络更新中的内存开销。

零阶优化器在大型语言模型微调中通过利用损失差分来近似梯度,避免了反向传播和激活存储的需求,从而节省了内存。

关键观点2: 本文涵盖了多种无需反向传播的优化器、大模型、任务和微调方案的系统评测。

文章对六种不同的零阶优化器以及在一阶优化器中常用的FO-SGD和FO-Adam进行了全面对比评测,旨在展示零阶优化器在多种大模型任务上的广泛潜力。

关键观点3: 作者提出了三种增强零阶优化器的全新算法,包括分块零阶微调、零阶和一阶混合微调、引入稀疏性的零阶梯度估计。

这些改进算法旨在进一步提高零阶优化器的性能,在保持内存效率的同时提高微调的准确性。

关键观点4: 实验结果表明,零阶优化器在不同的大模型和任务中表现出强大的性能。

实验结果显示,零阶优化器在不同的大模型和任务中具有良好的性能表现,特别是在内存效率方面有着显著的优势。


文章预览

转载机器之心 开源大语言模型(LLM)百花齐放,为了让它们适应各种下游任务,微调(fine-tuning)是最广泛采用的基本方法。基于自动微分技术(auto-differentiation)的一阶优化器(SGD、Adam 等)虽然在模型微调中占据主流,然而在模型越来越大的今天,却带来越来越大的显存压力。因此,如何高效地在微调中降低显存使得单卡可以满足微调需求已经成为一个热门研究问题。值得注意的是,虽然反向传播是这些一阶优化器的基石,被用于计算神经网络每个权重的梯度,同时却也是显存杀手,其中庞大计算图的保存所带来的开销也在大模型时代被凸显得尤为突出。与此同时,零阶优化器(Zeroth-Order Optimization)则完全无需保存计算图,转而使用有限差分来近似计算网络的梯度,通过完全避免反向传播(back-propagation; BP)来大大减少神经网络更新中的内存开 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览