文章预览
24年4月来自Meta FAIR为首的众多研究机构合写论文“Ego-Exo 4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives”。 Ego-Exo4D 是一个多样化、大规模的多模态多视角视频数据集和基准挑战。Ego-Exo 4D 围绕同时捕捉的以自我为中心和以外部为中心熟练的人类活动视频(例如,运动、音乐、舞蹈、自行车修理)。来自全球 13 个城市的 740 名参与者在 123 种不同的自然场景环境中进行了这些活动,产生了每次 1 到 42 分钟的长篇内容捕捉和总共 1,286 小时的视频。该数据集的多模态性前所未有:视频伴随着多通道音频、眼神注视、3D 点云、相机姿势、IMU 和多种成对的语言描述——包括由教练和老师制作并针对熟练的活动领域量身定制的“专家评论”。为了推动第一人称视频对熟练的人类活动理解,还提供了一套基准任务及其注释,包括细粒度活动理解
………………………………