专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

TNNLS24｜动态网络！同一个模型走不同路径，就能生成不同的图像描述结果！

我爱计算机视觉 · 公众号 · · 2024-11-14 14:58

文章预览

关注公众号，发现CV技术之美本文探讨了一种用于视觉和语言任务的新型动态网络，其中推理结构针对不同的输入动态定制。之前大多数最先进的方法都是静态的和手工制作的网络，它们不仅严重依赖于专家知识，而且忽略了输入样本的语义多样性，因此导致性能不佳。为了解决这些问题，我们提出了一种用于图像字幕的新型Dynamic Transformer Network (DTNet)，它为不同的样本动态分配定制的路径，从而产生具有辨别力且准确的字幕。具体而言，为了构建丰富的路由空间并提高路由效率，我们引入了五种基本单元，并根据其操作域即空间和通道将它们分组到两个单独的路由空间中。然后，我们设计了一个Spatial-Channel Joint Router (SCJR)，它使模型能够根据输入样本的空间和通道信息进行路径定制。为了验证我们提出的 DTNet 的有效性，我们在 MS-COCO 数据集上 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博