专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

修改一行代码就能实现高效微调!上海交大 & 腾讯开源SaRA:兼顾原始生成和下游任务

极市平台  · 公众号  · 科技自媒体  · 2024-09-19 22:00
    

主要观点总结

本文提出了SaRA,一种高效的参数微调方法,针对预训练模型中的无效参数进行利用。通过参数重要性分析、稀疏低秩训练、渐进式参数调整策略和非结构化反向传播策略,SaRA能够在多个下游任务上实现优越的模型微调效果。实验证明了SaRA的有效性,并展示了其在图像生成、图像定制和视频生成任务中的出色表现。

关键观点总结

关键观点1: 方法介绍

SaRA是一种针对预训练模型中的无效参数进行利用的参数高效微调方法。通过参数重要性分析,发现预训练模型中的部分参数在生成过程中的作用微乎其微,这些参数的无效性并非模型固有属性,而是由于训练过程中的不稳定性导致。

关键观点2: 核心创新点

SaRA的核心创新点包括:1. 基于核范数的低秩稀疏训练方案,有效约束了学习过程中的参数秩,避免过拟合;2. 渐进式参数调整策略,确保几乎所有参数都能有效地贡献于新任务的学习;3. 非结构化反向传播策略,显著降低了微调过程中的内存成本。

关键观点3: 实验效果

SaRA在多个下游任务上进行了广泛的实验验证,包括基模型能力提升、下游数据微调、图像定制化、可控视频生成等。实验结果表明,SaRA能够提升基础模型在原始任务的生成能力,在下游任务中,能兼顾下游任务的学习以及预训练先验的维护,实现优越的模型微调效果。


文章预览

↑ 点击 蓝字  关注极市平台 作者丨AI生成未来 来源丨AI生成未来 编辑丨极市平台 极市导读   仅修改一行训练代码即可实现微调过程。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 文章链接: https://arxiv.org/pdf/2409.06633 项目链接: https://sjtuplayer.github.io/projects/SaRA/ 1.引言 SaRA 是一种针对预训练扩散模型的高效微调方法。通过微调预训练扩散模型中的无效参数,赋予模型对下游任务的处理能力。SaRA能够显著节省计算显存开销与代码复杂度,仅修改一行训练代码即可实现微调过程。该方法的核心创新在于: 参数重要性分析 :SaRA首先对预训练模型中的参数重要性进行分析,发现预训练扩散模型中绝对值最小的10%至20%的参数在生成过程中的作用微乎其微。并且这些参数的无效性并非模型固有属性,而是由于训练过程中的不稳定性导致。 稀疏低 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览