ECCV 2024 | VideoMamba: 用于高效视频理解的状态空间模型

数据派THU · 公众号 · 大数据 · 2024-07-23 17:00

文章预览

来源：PaperWeekly 本文约2300字，建议阅读 9 分钟我们希望它可以为未来长视频的表征学习指明道路。一、介绍我们提出了一个仅基于状态空间模型 (SSM) 的高效视频理解架构 VideoMamba，并通过大量的实验证明了它具备一系列良好的特性，包括 1）Visual Domain Scalability；2）Short-term Action Sensitivity；3）Long-term Video Superiority；4）Modality Compatibility。这使得 VideoMamba 在一系列视频 benchmark 上取得不俗的结果，尤其是长视频 benchmark，为未来更全面的视频理解提供了更高效的方案。论文标题： VideoMamba: State Space Model for Efficient Video Understanding 论文链接： https://arxiv.org/abs/2403.06977 代码链接： https://github.com/OpenGVLab/VideoMamba 模型链接： https://huggingface.co/OpenGVLab/VideoMamba Online Demo: https://huggingface.co/spaces/OpenGVLab/VideoMamba 二、Motivation 视频表征学习长期以来存在两大痛点， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博