专栏名称: CV技术指南

长期更新：深度学习、计算机视觉相关技术的总结；图像处理相关知识；最新论文；经典论文；论文综述、tensorflow和pytorch等内容总结。涉及领域：神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

丰田联合普渡大学提出VTS | 用高效多模态LLM的视频Token稀疏化技术来加速ADAS落地

CV技术指南 · 公众号 · · 2024-09-26 17:40

文章预览

前言由于多模态大型语言模型模型的参数规模巨大且计算需求高，其部署面临巨大挑战，这些挑战往往超过了车载计算的限制。一个主要的局限性在于需要大量的视觉 Token 来捕捉细粒度和长上下文视觉信息，这导致了延迟和内存消耗的增加。为了解决这个问题，作者提出了一种名为视频 Token 稀疏化（VTS）的新方法，该方法利用连续视频帧之间的固有冗余来显著减少视觉 Token 的总数，同时保留最重要的信息。 VTS使用一种轻量级的基于CNN的 Proposal 模型，可以自适应地识别关键帧并剪裁不太有用的 Token ，从而有效减轻幻觉并提高推理吞吐量，而不会牺牲性能。 Pytorch训练营，花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班全面上线!! 1 简介近年来，自动驾驶取得了显著的进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

艾儿天空 · 林中谷《离婚后，我能听到未来的声音》万订，飞天鱼新书11月30号，巫九、妖僧花无缺新书消息

19 小时前

艾儿天空 · 小刀锋利尝试文娱，新书《从口水歌开始》上线，石三《神秘先行者》完结

3 天前

艾儿天空 · 帅犬弗兰克/驿路羁旅末日题材新书《非正常末日见闻录》上线，失落叶新书已经精品（今日没活，休息一天）

6 天前

骨哥说事 · 【CVE-2024-4879】ServiceNow 中的 Jelly 模板注入漏洞

4 月前

说书小马哥 · 三国079 反水

2 月前