注册登录

专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

数据派THU · 直播预告｜国产算力破局之路：从技术挑战到大模型赋能 · 昨天

数局 · 中国汽车技术研究中心&清华大学&华为：202 ... · 2 天前

数局 · 58安居客研究院：2025年上半年你全国新房 ... · 3 天前

数局 · Vinyl&SHULEX&BigSpy：20 ... · 3 天前

今天看啥 › 专栏 › 数据派THU

LoRA、完全微调到底有何不同？MIT 21页论文讲明白了

数据派THU · 公众号 · 大数据 · 2024-11-22 17:09

主要观点总结

本文介绍了两种微调大型语言模型的方法：完全微调和低秩自适应（LoRA）之间的差异。两种方法都用于将预训练模型适应特定的下游任务，但它们有所不同。文章探讨了这两种方法如何改变模型，以及它们在实际应用中的表现差异。

关键观点总结

关键观点1: 完全微调和低秩自适应（LoRA）的目的和方法

两种微调大型语言模型的方法，旨在将预训练模型适应特定的下游任务。LoRA旨在以较低的参数数量达到与完全微调相当的性能。

关键观点2: 研究内容和主要发现

来自MIT的研究者在论文中研究了完全微调与LoRA产生的权重矩阵奇异值分解结构的差异，以及这两种方法在面对超出适应任务分布的测试时的表现。研究发现，LoRA模型出现了侵入维度，这是一种新的高秩奇异向量，而在完全微调中则不会出现。尽管在某些任务上LoRA表现出良好的性能，但完全微调模型表现出更强的泛化能力和鲁棒性。

关键观点3: LoRA和完全微调的结构和行为差异

LoRA和完全微调在结构上产生不同的参数更新，这种差异由侵入维度的存在产生。行为上，与完全微调相比，具有侵入维度的LoRA微调模型会忘记更多的预训练分布，并且表现出较差的稳健连续学习能力。

关键观点4: 不同秩的LoRA微调的表现

低秩的LoRA（r ≤ 8）适合下游任务分布，而完全微调和高秩的LoRA（r = 64或更高）使模型具有更强的泛化能力。但利用更高的秩需要稳定的参数化。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

数据派THU · 直播预告｜国产算力破局之路：从技术挑战到大模型赋能

昨天

数局 · 中国汽车技术研究中心&清华大学&华为：2025汽车智能驾驶技术及产业发展白皮书

2 天前

数局 · 58安居客研究院：2025年上半年你全国新房市场报告

3 天前

数局 · Vinyl&SHULEX&BigSpy：2025年3D打印机出海趋势与营销洞察白皮书

3 天前

希玛眼科集团 · 深职大·希玛眼视光学院接触镜验配实训室落成，助力近视防控工作

1 年前

佰傲谷BioValley · 2024第一届合成生物技术与智能生物制造学术交流会在福州顺利召开

11 月前

每日时政热点金标尺 · 【综应小练】综应ABCE类小练笔

7 月前

券商中国 · 机会还是风险？半年近30家上市公司宣布跨界并购，已有6家失败

3 月前

江苏新闻 · 涉嫌严重违纪违法，阚全程被查！

1 月前

关于移动版 · RSS之家 · 卧龙AI搜索 · 更多产品 ·

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号