文章预览
近年来,基于 Transformer 的图模型(图 Transformer,graph Transformer)成为了一个备受关注的研究 方向。有别于传统的基于信息传递机制(Message-passing)的图神经网络(简称 MPNN), 图 Tran sformer 通过全局注意力机制来聚合全图的所有其他节点的信息,因此它能有效克服 MPNNs的过度挤压 (over-squashing),过度平滑 (over-smoothing),以及有限的表征能力(上界为于 1 阶 WL 算法)。 得益于图 Transformer 的设计,在对结构信息要求较高的图任务中(如[1], [2]),图 Transformer 的表现有着对 MPNNs 极大的优势 [3, 4]。 近年来,在视觉领域,不少研究者在质疑注意力机制和 Transformer 是不是唯一的“正确解”。 不基于注意力机制的卷积网络(Convolution Networks, 简称ConvNet), 是否能够于达到 Transformer 一样的性能。 同样的,在图学习领域有不少研究者也在思考, 是否能够不通过注意力
………………………………