文章预览
在 自注意力机制 中,模型计算输入序列中不同位置的相关性得分,以生成连接权重,从而关注序列中的重要部分。而 卷积 通过滑动窗口的方式,在输入上应用相同权重矩阵来提取局部特征。 如果将以上 两者结合 ,就可以同时利用自注意力捕捉长距离依赖关系和卷积运算提取局部特征的能力,让模型更全面地理解输入数据(特别是在处理复杂任务时), 实现更高的性能和更低的计算成本。 比如典型案例X-volution与ACmix。 目前这种 结合策略的高质量成果 已有不少,我从中整理了 10个 比较有代表性的供同学们参考,原文以及开源代码都整理好了,希望能给各位的论文添砖加瓦。 扫码添加小享, 回复“ 自卷积 ” 免费获取 全部论文+开源代码 X-volution: On the unification of convolution and self-attention 方法: 本文提出了一种新的原子操作符X-volution,将卷积和
………………………………