专栏名称: 旺知识
AI技术最新进展、发展趋势、研发经验、从业经验
今天看啥  ›  专栏  ›  旺知识

LECCR:多模态大语言模型增强的跨语言跨模态检索技术

旺知识  · 公众号  ·  · 2024-10-19 18:28
    

文章预览

跨语言跨模态检索(CCR)旨在基于非英语查询检索视觉上相关的内容,而在训练期间不依赖人工标记的跨模态数据对。 一种流行的方法是通过利用机器翻译(MT)创建伪平行数据对,建立视觉和非英语文本数据之间的对应关系。 然而,由于视觉和文本之间存在显著的语义鸿沟,以及非英语表示因预训练编码器和数据噪声导致的较低质量,对齐它们的表示存在挑战。 为了克服这些挑战,我们提出了LECCR,一种新颖的解决方案,它结合了多模态大型语言模型(MLLM)来改善视觉和非英语表示之间的对齐。 具体来说,我们首先使用MLLM生成详细的视觉内容描述,并将它们聚合到多视图语义槽中,这些语义槽封装了不同的语义。 然后,我们取这些语义槽作为内部特征,并利用它们与视觉特征进行交互。 通过这样做,我们增强了视觉特征中的语义信息,缩小 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览