文章预览
《Beyond MOT: Semantic Multi-Object Tracking》 github.com/HengLan/SMOT 是一篇关于视频内容理解领域的研究论文,它提出了一种新的任务范式——Semantic Multi-Object Tracking(SMOT),旨在通过视频分析同时预测目标的轨迹(即“在哪里”)和理解与轨迹相关的语义细节(即“是什么”)。这包括实例字幕、实例交互和整体视频字幕,从而将“在哪里”和“是什么”结合起来进行跟踪。为了推动SMOT的探索,论文中提出了一个大规模基准测试(BenSMOT),包含3,292个视频和151K帧,涵盖了多种人类语义跟踪场景,并提供了目标轨迹的注释以及相关的实例字幕、实例交互和每个视频序列的总体字幕。据作者所知,BenSMOT是第一个公开可用的SMOT基准测试。 此外,论文还介绍了一个名为SMOTer的新型跟踪器,它专门为SMOT设计并经过端到端训练,展现出了有希望的性能。通过发布BenSM
………………………………