专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
今天看啥  ›  专栏  ›  数据派THU

LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

数据派THU  · 公众号  · 大数据  · 2024-11-22 17:09
    

主要观点总结

本文介绍了两种微调大型语言模型的方法:完全微调和低秩自适应(LoRA)之间的差异。两种方法都用于将预训练模型适应特定的下游任务,但它们有所不同。文章探讨了这两种方法如何改变模型,以及它们在实际应用中的表现差异。

关键观点总结

关键观点1: 完全微调和低秩自适应(LoRA)的目的和方法

两种微调大型语言模型的方法,旨在将预训练模型适应特定的下游任务。LoRA旨在以较低的参数数量达到与完全微调相当的性能。

关键观点2: 研究内容和主要发现

来自MIT的研究者在论文中研究了完全微调与LoRA产生的权重矩阵奇异值分解结构的差异,以及这两种方法在面对超出适应任务分布的测试时的表现。研究发现,LoRA模型出现了侵入维度,这是一种新的高秩奇异向量,而在完全微调中则不会出现。尽管在某些任务上LoRA表现出良好的性能,但完全微调模型表现出更强的泛化能力和鲁棒性。

关键观点3: LoRA和完全微调的结构和行为差异

LoRA和完全微调在结构上产生不同的参数更新,这种差异由侵入维度的存在产生。行为上,与完全微调相比,具有侵入维度的LoRA微调模型会忘记更多的预训练分布,并且表现出较差的稳健连续学习能力。

关键观点4: 不同秩的LoRA微调的表现

低秩的LoRA(r ≤ 8)适合下游任务分布,而完全微调和高秩的LoRA(r = 64或更高)使模型具有更强的泛化能力。但利用更高的秩需要稳定的参数化。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照