讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Ego4D 目标-步:实现对程序化活动的分层理解

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-30 00:15
    

文章预览

NeurIPS‘23来自Meta FAIR的论文“Ego4D Goal-Step: Toward Hierarchical Understanding of Procedural Activities”。 人类活动是面向目标的、分层的,包括顶层的主要目标、中间的步和子步序列、以及最低层的原子动作(actomic action)。因此,识别人类活动需要将原子动作和各步与其功能目标(动作的贡献)联系起来,并建模它们在实现目标方面的顺序和分层依赖关系。当前的活动识别研究主要集中在这个层次结构的最低层,即原子或低层动作,通常出现在经过剪辑的视频中,注释仅持续几秒钟。这项工作引入 Ego4D 目标-步(Goal-Step),这是最近发布在数据集 Ego4D 上的一组新注释集,具有一个面向-目标活动标签的新分层分类。它为 48K 程序步分段(430 小时)提供致密注释,并为 2,807 小时 Ego4D 视频提供高级目标注释。与现有的程序化视频数据集相比,它在规模上要大得多 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览