专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

中科院/中科大/芝加哥大学创新动态Token合并框架,无需微调,依然强大,零样本视频理解的突破性进展!

CV技术指南  · 公众号  ·  · 2025-01-07 09:10
    

文章预览

前言   传统的视频处理方法严重依赖微调以捕捉细腻的空间-时间细节,这导致数据和计算成本巨大。相比之下,无训练方法虽然高效,但在保留复杂视频内容中的上下文丰富特征方面往往缺乏鲁棒性。 因此,作者提出了一种新颖的动态 Token 合并框架,用于零样本视频理解,该框架在适应性优化 Token 效率的同时,保持关键场景细节。该框架将层次化帧选择和二分 Token 合并策略相结合,动态聚类关键帧并选择性地压缩 Token 序列,在计算效率与语义丰富性之间取得了平衡。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 最近多模态大型语言模型(MLLMs)的先进发展,为视频理解开辟了新的途径。然而,在零样本视频任务中实现高保真度仍然具有挑战性。 传 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览