文章预览
夕小瑶科技说 原创 作者 | Axe_越 万物负阴而抱阳,冲气以为和 ——《道德经·第四十二章》 从Bert时代一路过来的朋友们应该还记得,对于仅仅只有1亿参数的Bert,在特定任务上做一个全参数微调(Full Parameter Fine-tuning,FPFT),那简直是再正常不过的操作。即使想不开要对Bert重新做个预训练(Pretraining),也无碍乎是“几张卡+几天”的事情,根本无伤大雅。 随着模型参数规模逐渐从1亿 扩大 到现在的百亿、千亿,全参数微调,哪怕是LoRA等仅更新部分参数的参数高效微调方法(Parameter Efficient Fine-Tuning,PEFT)也已经变成了一种奢侈的事情,因此我们开始转入对“尽可能影响更少的参数、让模型变得更快、资源消耗变得更低”的“ 小型化 ”追求。 今天要介绍的这篇文章, 在LoRA的基础上,把模型训练时的参数更新量进一步缩小了将近20倍 !不但如此
………………………………