CVPR'25跨模态因果对齐，让机器更懂视觉证据丨中大南洋理工等联合开源

量子位 · 公众号 · AI · 2025-03-17 10:21

文章预览

CRA团队投稿量子位 | 公众号 QbitAI 跨模态因果对齐，让机器更懂视觉证据！来自中山大学、新加坡南洋理工大学等团队提出跨模态因果对齐框架（CRA），通过因果干预和跨模态对齐，显著提升时空定位的准确性与可解释性。相关论文已被CVPR 2025接收，代码已开源。事情是这样的—— 近年来随着多模态大模型的发展，视频问答（VideoQA）任务 ——要求模型根据视频内容回答自然语言问题—— 性能显著提升。然而，现有模型往往依赖训练数据中的统计偏差（如语言关键词与答案的虚假关联），而非真正的因果视觉证据，导致回答缺乏可解释性。举个栗子～例如下图中，当视频中出现“婴儿”和“女性”时，模型可能仅因二者高频共现而给出答案，却忽略真实因果事件（如“女性抱起婴儿”）。也就是说，虽然结果答对了，但过程中模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博