文章预览
NeurIPS‘23来自Meta FAIR的论文“Ego4D Goal-Step: Toward Hierarchical Understanding of Procedural Activities”。 人类活动是面向目标的、分层的,包括顶层的主要目标、中间的步和子步序列、以及最低层的原子动作(actomic action)。因此,识别人类活动需要将原子动作和各步与其功能目标(动作的贡献)联系起来,并建模它们在实现目标方面的顺序和分层依赖关系。当前的活动识别研究主要集中在这个层次结构的最低层,即原子或低层动作,通常出现在经过剪辑的视频中,注释仅持续几秒钟。这项工作引入 Ego4D 目标-步(Goal-Step),这是最近发布在数据集 Ego4D 上的一组新注释集,具有一个面向-目标活动标签的新分层分类。它为 48K 程序步分段(430 小时)提供致密注释,并为 2,807 小时 Ego4D 视频提供高级目标注释。与现有的程序化视频数据集相比,它在规模上要大得多
………………………………