专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

finetune后的模型参数，还可以继续怎么玩？

极市平台 · 公众号 · · 2024-11-05 22:00

主要观点总结

本文介绍了通过对预训练和finetune后的模型参数之差（task vector）进行分析，发现其可以扩展出更多的使用场景。文章展示了三种使用场景：功能抑制（遗忘）、多任务学习和任务类比迁移。其中，通过对不同下游任务的task vectors进行简单的计算，可以得到用于更多场景的组合参数。虽然相比于直接finetuning有所差距，但作为迁移任务的初始化参数是一个不错的选择。

关键观点总结

关键观点1: 模型参数差分析

通过对预训练和finetune后的模型参数之差（task vector）进行分析，发现其可以扩展出更多的使用场景。

关键观点2: 功能抑制（遗忘）

通过反向操作task vector，可以实现模型的遗忘功能。作者在多个下游任务上进行了实验，发现这种反向操作可以在目标任务上使模型效果变差，但在ImageNet上的效果相对下降较小，实现了部分遗忘。

关键观点3: 多任务学习

通过将多个任务的task vector进行加权和（简单相加），可以得到能用于更多场景的组合参数。这种方法的好处是方便，并且当任务之间有一定的相关性时，可能会产生1+1>2的效果。

关键观点4: Task Analogy迁移学习

通过构造特色组合实现任务的迁移。文中给出了两个例子，包括情感分类任务和语言模型的迁移以及通过组合室内狮子和室外狮子等样本实现特定任务的迁移。

关键观点5: 分析和猜测

文中分析了预训练模型基于transformer的特性，对task vector的效果进行了猜测和解释。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博