文章预览
关注公众号,发现CV技术之美 本文探讨了一种用于视觉和语言任务的新型动态网络,其中推理结构针对不同的输入动态定制。之前大多数最先进的方法都是静态的和手工制作的网络,它们不仅严重依赖于专家知识,而且忽略了输入样本的语义多样性,因此导致性能不佳。 为了解决这些问题,我们提出了一种用于图像字幕的新型Dynamic Transformer Network (DTNet),它为不同的样本动态分配定制的路径,从而产生具有辨别力且准确的字幕。 具体而言,为了构建丰富的路由空间并提高路由效率,我们引入了五种基本单元,并根据其操作域即空间和通道将它们分组到两个单独的路由空间中。然后,我们设计了一个Spatial-Channel Joint Router (SCJR),它使模型能够根据输入样本的空间和通道信息进行路径定制。 为了验证我们提出的 DTNet 的有效性,我们在 MS-COCO 数据集上
………………………………