文章预览
摘要 大规模视觉-语言预训练在多模态理解和生成任务中取得了显著的性能提升。 然而,现有方法在需要结构化表示 的 图像-文本匹配任务上的表现往往较差,即对对象、属性和关系的表示。 As illustrated in Fig. 1 (a), the models cannot make a distinction between “An astronaut rides a horse” and “A horse rides an astronaut”. 这是因为它们在多模态场景中学习表示时未能充分利用结构化知识。 在本文中,我们提出了一种端到端的框架Structure-CLIP,它集成了 场景图知识 (SGK) 来增强多模态结构化表示。 首先,我们使用场景图来指导 构建 语义否定 示例,这使得学习结构化表示更加突出。 此外,提出了一种 知识增强编码器 (KEE) ,利用SGK作为输入来进一步增强结构化表示。 为了验证所提出框架的有效性,我们使用上述方法 预训练 我们的模型,并在下游任务
………………………………