即插即用ChatTracker：多模态大模型重塑目标跟踪

自动驾驶之心 · 公众号 · · 2024-11-12 07:30

文章预览

点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『大语言模型』技术交流群编辑 | 自动驾驶之心写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近，视觉语言（VL）跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而，VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器（SoTA）。我们发现，这种劣势主要是由于他们严重依赖手动文本注释，其中包括频繁提供模糊的语言描述。在本文中，我们提出了ChatTracker，利用多模态大语言模型（MLLM）中丰富的世界知识来生成高质量的语言描述并提高跟踪性能。为此，我们提出了一种新的基于反射的提示优化模块，通过跟踪反馈迭代地改进目标的模糊和不准确的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博