重新聚焦Attention在微调大模型中的重要性

小白学视觉 · 公众号 · · 2024-09-07 10:05

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达作者丨Baifeng@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/632301499 编辑丨极市平台极市导读在只微调一小部分参数的情况下超越fine-tuning，LoRA，VPT等方法！论文链接： https://arxiv.org/pdf/2305.15542 GitHub链接： https://github.com/bfshi/TOAST 我们发现在一个下游任务上微调大模型时，目前的方法（fine-tuning，LoRA，prompt tuning等等）往往无法将模型的attention聚焦在和下游任务相关的信息上。比如下方图1(b)，我们把一个pretrained ViT迁移到下游的鸟类分类任务，却发现微调后得到的attention往往非常杂乱，这有可能会对模型在下游任务上的表现有影响。图1：(a) 我们的方法通过重新聚焦模型的attention来大幅提升大模型在下游任务上的表现；(b) 目前的微调方法往往无法将模型的注意力 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博