VideoLLaMB：利用循环记忆桥接层和场景分割算法的新型长视频理解框架

ADFeed · 公众号 · · 2024-09-20 11:15

文章预览

VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges 介绍： https://videollamb.github.io/ 代码： https://github.com/bigai-nlco/VideoLLaMB 论文： https://arxiv.org/abs/2409.01071 VideoLLaMB 是一种创新的长视频理解框架，它通过在桥接层中引入循环记忆令牌和SceneTilling算法，有效地对整个视频序列进行编码，同时保留历史视觉数据，以维持视频内容的语义连续性。该方法不仅提升了模型在多个任务上的性能，还在长视频问答和自我中心规划等基准测试中取得了显著的改进。SceneTilling 算法将视频分割成语义独立的单元，确保了视频信息的完整性和细节的保留，而循环记忆桥接层则通过增强记忆能力，使得模型能够更好地处理和理解长视频内容。 VideoLLaMB 在处理长视频帧检索任务时展现了卓越的性能，它能够在极长的视频序列中准确检索到特定帧，这一点在“视频大海 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博