专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

新加坡国立大学/清华大学提出 LaVida Drive:用于自动驾驶的视觉-文本交互VLM，具有令牌选择、恢复和增强功能！

智驾实验室 · 公众号 · · 2024-12-20 08:00

文章预览

ADAS Laboratory 点击上方蓝字关注智驾实验室加入【智驾实验室】交流群，获取更多内容和资料视觉语言模型（VLMs）的最新进展使其在自动驾驶的视觉问答（VQA）中变得至关重要，实现了自然的人机交互。然而，现有方法在动态驾驶环境中往往表现不佳，因为它们通常专注于静态图像或视频，并依赖降采样以管理计算成本。这导致关键细节的丢失，以及空间和时间信息的有效整合的困难，这对细粒度感知和时间连贯性是有效决策的关键。为了解决这些问题，作者提出了一种名为LaVida Drive的新颖且高效的VQA框架。LaVida Drive在保持高分辨率输入的同时，将时间数据无缝集成。它通过保留高分辨率数据以处理复杂的细节，并使用低分辨率输入进行时间分析以关注与运动相关的特征，从而提高计算效率。作者的方法实现了168倍的 Token 压 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

艾儿天空 · 《石破天穿越令狐冲》《社畜逆袭》万订，《盖世双谐》第八卷结束，全球高武动画开播

昨天

会计雅苑 · 四大事务所官宣扩招10万人，头部券商成立新部门抢人才！大家冲一冲业内新兴领域，人才缺口极大！

5 天前

艾儿天空 · 起点年度神作评选活动开启预热，蚕室废人《北唐》断更十二年后更新

5 天前

研习设 · 太爷太奶设计的招牌，够咱学一辈子了！

6 月前

三峡小微 · 三峡集团与华中科技大学座谈

4 月前

生信技能树 · 新秀mulea包能取代y叔的clusterProfiler包生物学功能富集分析吗？

1 周前

新加坡国立大学/清华大学提出 LaVida Drive:用于自动驾驶的视觉-文本交互VLM，具有令牌选择、恢复和增强功能 ！

文章预览

新加坡国立大学/清华大学提出 LaVida Drive:用于自动驾驶的视觉-文本交互VLM，具有令牌选择、恢复和增强功能！