专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
InfoTech  ·  DeepSeek生产Excel技巧 ·  昨天  
今天看啥  ›  专栏  ›  数据派THU

【CVPR2025】MASH-VLM:通过解耦时空表征缓解视频大语言模型中的动作-场景幻觉问题

数据派THU  · 公众号  · 大数据  · 2025-04-08 17:00
    

文章预览

来源:专知 本文 约1000字 ,建议阅读 5 分钟 我们提出了MASH-VLM,即通过解耦时空表征来缓解视频大语言模型中的动作-场景幻觉。 在本研究中,我们致力于解决视频大语言模型(Video-LLMs)中的动作-场景幻觉问题,即模型基于场景上下文错误预测动作,或基于观察到的动作错误预测场景。我们发现,现有的视频大语言模型通常因以下两个主要原因而出现动作-场景幻觉:首先,现有模型通过对所有标记(tokens)应用注意力操作,将空间和时间特征混为一谈;其次,它们使用标准的旋转位置嵌入(RoPE),导致文本标记过度依赖其序列顺序而强调某些类型的标记。为了解决这些问题,我们提出了MASH-VLM,即通过解耦时空表征来缓解视频大语言模型中的动作-场景幻觉。我们的方法包括两项关键创新:(1)DST-attention,一种新颖的注意力机制,通过使用掩码 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览