【SMoT：结合目标的轨迹估计和丰富的语义细节理解】

计算机视觉之路 · 公众号 · · 2024-08-12 15:17

文章预览

《Beyond MOT: Semantic Multi-Object Tracking》 github.com/HengLan/SMOT 是一篇关于视频内容理解领域的研究论文，它提出了一种新的任务范式——Semantic Multi-Object Tracking（SMOT），旨在通过视频分析同时预测目标的轨迹（即“在哪里”）和理解与轨迹相关的语义细节（即“是什么”）。这包括实例字幕、实例交互和整体视频字幕，从而将“在哪里”和“是什么”结合起来进行跟踪。为了推动SMOT的探索，论文中提出了一个大规模基准测试（BenSMOT），包含3,292个视频和151K帧，涵盖了多种人类语义跟踪场景，并提供了目标轨迹的注释以及相关的实例字幕、实例交互和每个视频序列的总体字幕。据作者所知，BenSMOT是第一个公开可用的SMOT基准测试。此外，论文还介绍了一个名为SMOTer的新型跟踪器，它专门为SMOT设计并经过端到端训练，展现出了有希望的性能。通过发布BenSM ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博