主要观点总结
本文介绍了通过对预训练和finetune后的模型参数之差(task vector)进行分析,发现其可以扩展出更多的使用场景。文章展示了三种使用场景:功能抑制(遗忘)、多任务学习和任务类比迁移。其中,通过对不同下游任务的task vectors进行简单的计算,可以得到用于更多场景的组合参数。虽然相比于直接finetuning有所差距,但作为迁移任务的初始化参数是一个不错的选择。
关键观点总结
关键观点1: 模型参数差分析
通过对预训练和finetune后的模型参数之差(task vector)进行分析,发现其可以扩展出更多的使用场景。
关键观点2: 功能抑制(遗忘)
通过反向操作task vector,可以实现模型的遗忘功能。作者在多个下游任务上进行了实验,发现这种反向操作可以在目标任务上使模型效果变差,但在ImageNet上的效果相对下降较小,实现了部分遗忘。
关键观点3: 多任务学习
通过将多个任务的task vector进行加权和(简单相加),可以得到能用于更多场景的组合参数。这种方法的好处是方便,并且当任务之间有一定的相关性时,可能会产生1+1>2的效果。
关键观点4: Task Analogy迁移学习
通过构造特色组合实现任务的迁移。文中给出了两个例子,包括情感分类任务和语言模型的迁移以及通过组合室内狮子和室外狮子等样本实现特定任务的迁移。
关键观点5: 分析和猜测
文中分析了预训练模型基于transformer的特性,对task vector的效果进行了猜测和解释。
文章预览
↑ 点击 蓝字 关注极市平台 作者丨qjf42@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/591775846 编辑丨极市平台 极市导读 通过对不同下游任务的task vectors进行简单的计算,组合得到的新参数(构成一个线性子空间),可以扩展出更多的使用场景。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 看到了一篇很有意思的paper,文章对预训练和finetune之后的模型参数之差( task vector = 两个weight按位相减)做了分析,发现了一些奇妙的用法:通过对不同下游任务的task vectors进行简单的计算,组合得到的新参数(构成一个线性子空间),可以扩展出更多的使用场景,如:功能抑制(遗忘),多任务学习,迁移学习。 Editing Models with Task Arithmetic: https://arxiv.org/abs/2212.04089 以下, 我们记task vector 为 我们可以构造一系列新的参数 1. 反向即遗忘 也就是 显然,
………………………………