TNNLS24｜动态网络！同一个模型走不同路径，就能生成不同的图像描述结果！

FightingCV · 公众号 · · 2024-11-15 09:00

文章预览

摘要本文探讨了一种用于视觉和语言任务的新型动态网络，其中推理结构针对不同的输入动态定制。之前大多数最先进的方法都是静态的和手工制作的网络，它们不仅严重依赖于专家知识，而且忽略了输入样本的语义多样性，因此导致性能不佳。为了解决这些问题，我们提出了一种用于图像字幕的新型 Dynamic Transformer Network (DTNet)，它为不同的样本动态分配定制的路径，从而产生具有辨别力且准确的字幕。具体而言，为了构建丰富的路由空间并提高路由效率，我们引入了五种基本单元，并根据其操作域即空间和通道将它们分组到两个单独的路由空间中。然后，我们设计了一个 Spatial-Channel Joint Router (SCJR)，它使模型能够根据输入样本的空间和通道信息进行路径定制。为了验证我们提出的 DTNet 的有效性，我们在 MS-COCO 数据集上进行了大量实验 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博