文章预览
导读 本文将分享蚂蚁多模态认知团队过去一年在视频多模态检索领域的研究成果。文章主要围绕如何提升视频文本语义检索效果,及如何高效地进行视频同源检索这两项研究工作展开。 主要包括以下几大部分: 1. 概述 2. 视频-文本语义检索 3. 视频-视频同源搜索 4. 总结 5. Q 分享嘉宾| 郭清沛 蚂蚁集团 高级算法专家 编辑整理|张进东 内容校对|李瑶 出品社区| DataFun 01 概述 视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向,一个是视频-文本的语义检索,另外一个是视频-视频的同源检索。 视频-文本的语义检索方向旨在通过文本检索与其语义相近的视频,其检索文本未必在检索到的视频描述中直接出现,但检索视频的内容与检索文本需要保证语义相关。例如,在支付宝的搜索栏中,用户期望通过文
………………………………