专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

CVPR'25跨模态因果对齐,让机器更懂视觉证据丨中大南洋理工等联合开源

量子位  · 公众号  · AI  · 2025-03-17 10:21
    

文章预览

CRA团队 投稿 量子位 | 公众号 QbitAI 跨模态因果对齐,让机器更懂视觉证据! 来自中山大学、新加坡南洋理工大学等团队提出 跨模态因果对齐框架 (CRA) ,通过因果干预和跨模态对齐,显著提升时空定位的准确性与可解释性。 相关论文 已被CVPR 2025接收,代码已开源 。 事情是这样的—— 近年来随着多模态大模型的发展, 视频问答 (VideoQA) 任务 ——要求模型根据视频内容回答自然语言问题—— 性能显著提升 。 然而,现有模型往往依赖训练数据中的统计偏差 (如语言关键词与答案的虚假关联) ,而非真正的因果视觉证据,导致回答缺乏可解释性。 举个栗子~ 例如下图中,当视频中出现“婴儿”和“女性”时, 模型可能仅因二者高频共现而给出答案,却忽略真实因果事件 (如“女性抱起婴儿”) 。 也就是说,虽然结果答对了,但过程中模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览