专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

即插即用ChatTracker:多模态大模型重塑目标跟踪

自动驾驶之心  · 公众号  ·  · 2024-11-12 07:30

文章预览

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我->  领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 大语言模型 』 技术交流群 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。我们发现,这种劣势主要是由于他们严重依赖手动文本注释,其中包括频繁提供模糊的语言描述。在本文中,我们提出了ChatTracker,利用多模态大语言模型(MLLM)中丰富的世界知识来生成高质量的语言描述并提高跟踪性能。为此,我们提出了一种新的基于反射的提示优化模块,通过跟踪反馈迭代地改进目标的模糊和不准确的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览