专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

TNNLS24|动态网络!同一个模型走不同路径,就能生成不同的图像描述结果!

FightingCV  · 公众号  ·  · 2024-11-15 09:00
    

文章预览

摘要 本文探讨了一种用于视觉和语言任务的新型动态网络,其中推理结构针对不同的输入动态定制。之前大多数最先进的方法都是静态的和手工制作的网络,它们不仅严重依赖于专家知识,而且忽略了输入样本的语义多样性,因此导致性能不佳。为了解决这些问题,我们提出了一种用于图像字幕的新型 Dynamic Transformer Network (DTNet),它为不同的样本动态分配定制的路径,从而产生具有辨别力且准确的字幕。具体而言,为了构建丰富的路由空间并提高路由效率,我们引入了五种基本单元,并根据其操作域 即 空间和通道将它们分组到两个单独的路由空间中。然后,我们设计了一个 Spatial-Channel Joint Router (SCJR),它使模型能够根据输入样本的空间和通道信息进行路径定制。为了验证我们提出的 DTNet 的有效性,我们在 MS-COCO 数据集上进行了大量实验 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览