专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

丰田联合普渡大学提出VTS | 用高效多模态LLM的视频Token稀疏化技术来加速ADAS落地

CV技术指南  · 公众号  ·  · 2024-09-26 17:40

文章预览

前言   由于 多模态大型语言模型 模型的参数规模巨大且计算需求高,其部署面临巨大挑战,这些挑战往往超过了车载计算的限制。 一个主要的局限性在于需要大量的视觉 Token 来捕捉细粒度和长上下文视觉信息,这导致了延迟和内存消耗的增加。 为了解决这个问题,作者提出了一种名为 视频 Token 稀疏化(VTS)的新方法 ,该方法 利用连续视频帧之间的固有冗余来显著减少视觉 Token 的总数,同时保留最重要的信息 。 VTS使用一种轻量级的基于CNN的 Proposal 模型,可以自适应地识别关键帧并剪裁不太有用的 Token ,从而有效减轻幻觉并提高推理吞吐量,而不会牺牲性能。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 1 简介 近年来,自动驾驶取得了显著的进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览