专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

参数更新量仅为LoRA的5%,性能不减反升!南加大提出高效精调法LaMDA

夕小瑶科技说  · 公众号  · 科技自媒体  · 2024-07-06 14:39
    

主要观点总结

本文介绍了LaMDA方法,它在参数高效微调技术的基础上,通过引入低维适配器(Low-Dimensional Adapter,LDA)来显著减少大模型(LLMs)微调所需的可训练参数和内存占用。相比之前的参数高效微调方法,如LoRA,LaMDA能够减少更多的参数数量,同时保持或提高模型在多种NLP任务上的性能。文章还介绍了LaMDA++,它是LaMDA的增强版本,通过自适应秩分配策略进一步优化了微调过程。实验结果表明,LaMDA和LaMDA++在多个NLP任务上取得了良好的性能,并且显著减少了可训练参数数量和计算成本。

关键观点总结

关键观点1: LaMDA方法通过引入低维适配器(LDA)来显著减少大模型微调所需的可训练参数和内存占用。

LDA是基于模型嵌入维度的低内在维度理念,通过在模型的适配路径中引入一个低维的可训练方阵来实现参数和内存占用的减少。

关键观点2: LaMDA方法利用奇异值分解进行初始化,并采用逐步冻结策略进行微调。

通过对预训练权重的奇异值分解,利用与最大奇异值对应的奇异向量初始化适配矩阵,并在微调过程中逐步冻结部分参数,以实现模型的高效微调。

关键观点3: LaMDA++通过自适应秩分配策略进一步优化了LaMDA方法。

LaMDA++根据各层的能量分数自适应地分配可训练参数的数量,将更多的参数分配给在预训练权重中具有更高能量成分的层,以提高模型的效率和性能。

关键观点4: 实验结果表明,LaMDA和LaMDA++在多个NLP任务上取得了良好的性能。

实验结果显示,LaMDA和LaMDA++在GLUE基准测试、文本摘要任务以及复杂推理任务等多个NLP任务上取得了与现有微调方法相媲美或更好的性能,并且显著减少了可训练参数数量和计算成本。


文章预览

夕小瑶科技说 原创 作者 | Axe_越 万物负阴而抱阳,冲气以为和 ——《道德经·第四十二章》 从Bert时代一路过来的朋友们应该还记得,对于仅仅只有1亿参数的Bert,在特定任务上做一个全参数微调(Full Parameter Fine-tuning,FPFT),那简直是再正常不过的操作。即使想不开要对Bert重新做个预训练(Pretraining),也无碍乎是“几张卡+几天”的事情,根本无伤大雅。 随着模型参数规模逐渐从1亿 扩大 到现在的百亿、千亿,全参数微调,哪怕是LoRA等仅更新部分参数的参数高效微调方法(Parameter Efficient Fine-Tuning,PEFT)也已经变成了一种奢侈的事情,因此我们开始转入对“尽可能影响更少的参数、让模型变得更快、资源消耗变得更低”的“ 小型化 ”追求。 今天要介绍的这篇文章, 在LoRA的基础上,把模型训练时的参数更新量进一步缩小了将近20倍 !不但如此 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览