文章预览
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 作者丨Baifeng@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/632301499 编辑丨极市平台 极市导读 在只微调一小部分参数的情况下超越fine-tuning,LoRA,VPT等方法! 论文链接: https://arxiv.org/pdf/2305.15542 GitHub链接: https://github.com/bfshi/TOAST 我们发现在一个下游任务上微调大模型时, 目前的方法(fine-tuning,LoRA,prompt tuning等等)往往无法将模型的attention聚焦在和下游任务相关的信息上 。比如下方图1(b),我们把一个pretrained ViT迁移到下游的鸟类分类任务,却发现微调后得到的attention往往非常杂乱,这有可能会对模型在下游任务上的表现有影响。 图1:(a) 我们的方法通过重新聚焦模型的attention来大幅提升大模型在下游任务上的表现;(b) 目前的微调方法往往无法将模型的注意力
………………………………