Ego4D 目标-步：实现对程序化活动的分层理解

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-08-30 00:15

文章预览

NeurIPS‘23来自Meta FAIR的论文“Ego4D Goal-Step: Toward Hierarchical Understanding of Procedural Activities”。人类活动是面向目标的、分层的，包括顶层的主要目标、中间的步和子步序列、以及最低层的原子动作（actomic action）。因此，识别人类活动需要将原子动作和各步与其功能目标（动作的贡献）联系起来，并建模它们在实现目标方面的顺序和分层依赖关系。当前的活动识别研究主要集中在这个层次结构的最低层，即原子或低层动作，通常出现在经过剪辑的视频中，注释仅持续几秒钟。这项工作引入 Ego4D 目标-步（Goal-Step），这是最近发布在数据集 Ego4D 上的一组新注释集，具有一个面向-目标活动标签的新分层分类。它为 48K 程序步分段（430 小时）提供致密注释，并为 2,807 小时 Ego4D 视频提供高级目标注释。与现有的程序化视频数据集相比，它在规模上要大得多 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博