专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

TNNLS24|动态网络!同一个模型走不同路径,就能生成不同的图像描述结果!

我爱计算机视觉  · 公众号  ·  · 2024-11-14 14:58

文章预览

关注公众号,发现CV技术之美 本文探讨了一种用于视觉和语言任务的新型动态网络,其中推理结构针对不同的输入动态定制。之前大多数最先进的方法都是静态的和手工制作的网络,它们不仅严重依赖于专家知识,而且忽略了输入样本的语义多样性,因此导致性能不佳。 为了解决这些问题,我们提出了一种用于图像字幕的新型Dynamic Transformer Network (DTNet),它为不同的样本动态分配定制的路径,从而产生具有辨别力且准确的字幕。 具体而言,为了构建丰富的路由空间并提高路由效率,我们引入了五种基本单元,并根据其操作域即空间和通道将它们分组到两个单独的路由空间中。然后,我们设计了一个Spatial-Channel Joint Router (SCJR),它使模型能够根据输入样本的空间和通道信息进行路径定制。 为了验证我们提出的 DTNet 的有效性,我们在 MS-COCO 数据集上 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览