专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

VideoLLM-MoD在大型视觉语言模型中的应用 !

CV技术指南  · 公众号  ·  · 2024-09-08 09:10

文章预览

前言   在大型视觉语言模型(例如,GPT-4,LLaVA等)中,存在的一个知名困境是,尽管增加视觉标记的数量通常可以提高视觉理解,但它也会显著增加内存和计算成本,尤其是在长期或流式视频帧处理场景中。 尽管已经开发了可学习的方法,如Q-Former和 Perceiver Resampler ,以减轻视觉标记的负担,但它们可能忽略了由类LLM(例如,键值缓存) causally建模的上下文,可能导致在处理用户 Query 时错过视觉线索。 在本论文中,作者提出了一种利用冗余视觉标记“跳过层”而不是减少视觉标记数量的方法来减少视觉计算。 作者提出的VideoLLM-MoD方法灵感来源于混合深度LLM,并解决了长期或流式视频中大量视觉标记的挑战。 具体而言,对于每个 Transformer 层,作者学习跳过其中高达80%的视觉标记的计算,并直接将其传递到下一层。 这种方法显著提高了模型效率 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览