专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Structure-CLIP:面向场景图知识以增强多模态结构化表示

FightingCV  · 公众号  ·  · 2025-01-14 09:00
    

文章预览

摘要 大规模视觉-语言预训练在多模态理解和生成任务中取得了显著的性能提升。  然而,现有方法在需要结构化表示 的 图像-文本匹配任务上的表现往往较差,即对对象、属性和关系的表示。  As illustrated in Fig.  1  (a),  the models cannot make a  distinction  between “An astronaut rides a horse” and “A horse rides an astronaut”.   这是因为它们在多模态场景中学习表示时未能充分利用结构化知识。  在本文中,我们提出了一种端到端的框架Structure-CLIP,它集成了 场景图知识 (SGK) 来增强多模态结构化表示。  首先,我们使用场景图来指导 构建 语义否定 示例,这使得学习结构化表示更加突出。  此外,提出了一种 知识增强编码器 (KEE) ,利用SGK作为输入来进一步增强结构化表示。  为了验证所提出框架的有效性,我们使用上述方法 预训练 我们的模型,并在下游任务 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览