从新的角度看待大模型微调

小白学视觉 · 公众号 · · 2024-06-09 15:40

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达一、前言一切要从最近大火的Lora（《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》）说起，该文章在ICLR2022中提出。说的是利用低秩适配(low-rank adaptation)的方法，可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。 LoRA是怎么去微调适配下游任务的？流程很简单，LoRA利用对应下游任务的数据，只通过训练新加部分参数来适配下游任务。而当训练好新的参数后，利用重参的方式，将新参数和老的模型参数合并，这样既能在新任务上到达fine-tune整个模型的效果，又不会在推断的时候增加推断的耗时。 LoRA的示意图如下：图中蓝色部分为预训练好的模型参数，LoRA在预训练好的模型结构旁边加入了A和B两个结构，这两个结构的参数分别初始化为高 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博