一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

探究大模型微调 Lora 的不同形态(上篇): AdaLora、 AsLora、 PiSSA、 DoRA

深度学习自然语言处理  · 公众号  ·  · 2024-09-11 22:49

文章预览

知乎:周星星 链接:https://zhuanlan.zhihu.com/p/719438707 排版:AI椰青@深度学习自然语言处理 公众号 前言 最近本人一直在研究 SFT 的落地工作,其中 LoRA 是一个无法避开的微调技术。相比全参数微调,LoRA 提供了一种更为友好和安全的微调方案。 首先,LoRA 在资源使用上更为高效。它能显著节省显存,使得我们在有限的计算资源下也能训练 size 更大的模型。其次,LoRA 具有一定的正则化效果,类似于 dropout 或 mask。这种特性使得模型在学习下游任务时,能够减少遗忘现象, 关于这方面的详细分析,可以参考 LoRA Learns Less and Forgets Less。 https://arxiv.org/pdf/2405.09673 然而,在实际应用中,本人还存在很多疑问。例如,为什么 LoRA 的收敛速度相对全参数微调很慢?LoRA 能否达到与全参数微调相媲美的效果?如何选择 LoRA 的 rank 值?这些问题都值得深入探讨。 为了深 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览