文章预览
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 编者荐语 最近看到一篇文章介绍一个很有意思的问题,『为什么没有做batch attention的?』,在此给大家分享一下,希望对大家有一定的帮助。 转载自丨NewBeeNLP ©作者 |侯志 单位 | 悉尼大学 当前的深度神经网络尽管已经取得了巨大的成功,但仍然面临着来自于数据稀缺的各种挑战,比如数据不平衡,零样本分布,域适应等等。当前已经有各种方法通过样本之间的关系去针对这些问题。然而这些方法并没有去挖掘内在的网络结构来使网络模型建模关系。受这些启发,我们提出了一个使网络能够从训练批次(min-batch)中学习样本关系的 简单有效并且即插即用 Transformer 模块,Batch TransFormer(BatchFormer)。 具体地, BatchFormer 应用于每个训练批次数据的batch维度来隐式
………………………………