专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
今天看啥  ›  专栏  ›  小白学视觉

重新聚焦Attention在微调大模型中的重要性

小白学视觉  · 公众号  ·  · 2024-09-07 10:05

文章预览

点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 作者丨Baifeng@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/632301499 编辑丨极市平台 极市导读   在只微调一小部分参数的情况下超越fine-tuning,LoRA,VPT等方法! 论文链接: https://arxiv.org/pdf/2305.15542 GitHub链接: https://github.com/bfshi/TOAST 我们发现在一个下游任务上微调大模型时, 目前的方法(fine-tuning,LoRA,prompt tuning等等)往往无法将模型的attention聚焦在和下游任务相关的信息上 。比如下方图1(b),我们把一个pretrained ViT迁移到下游的鸟类分类任务,却发现微调后得到的attention往往非常杂乱,这有可能会对模型在下游任务上的表现有影响。 图1:(a) 我们的方法通过重新聚焦模型的attention来大幅提升大模型在下游任务上的表现;(b) 目前的微调方法往往无法将模型的注意力 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览