主要观点总结
本文介绍了通过对预训练和finetune后的模型参数之差(task vector)进行分析,发现其可以扩展出更多的使用场景。文章展示了三种使用场景:功能抑制(遗忘)、多任务学习和任务类比迁移。其中,通过对不同下游任务的task vectors进行简单的计算,可以得到用于更多场景的组合参数。虽然相比于直接finetuning有所差距,但作为迁移任务的初始化参数是一个不错的选择。
关键观点总结
关键观点1: 模型参数差分析
通过对预训练和finetune后的模型参数之差(task vector)进行分析,发现其可以扩展出更多的使用场景。
关键观点2: 功能抑制(遗忘)
通过反向操作task vector,可以实现模型的遗忘功能。作者在多个下游任务上进行了实验,发现这种反向操作可以在目标任务上使模型效果变差,但在ImageNet上的效果相对下降较小,实现了部分遗忘。
关键观点3: 多任务学习
通过将多个任务的task vector进行加权和(简单相加),可以得到能用于更多场景的组合参数。这种方法的好处是方便,并且当任务之间有一定的相关性时,可能会产生1+1>2的效果。
关键观点4: Task Analogy迁移学习
通过构造特色组合实现任务的迁移。文中给出了两个例子,包括情感分类任务和语言模型的迁移以及通过组合室内狮子和室外狮子等样本实现特定任务的迁移。
关键观点5: 分析和猜测
文中分析了预训练模型基于transformer的特性,对task vector的效果进行了猜测和解释。
免责声明
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。