Ego-Exo 4D：从第一人称和第三人称视角理解熟练的人类活动

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-08-23 00:04

文章预览

24年4月来自Meta FAIR为首的众多研究机构合写论文“Ego-Exo 4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives”。 Ego-Exo4D 是一个多样化、大规模的多模态多视角视频数据集和基准挑战。Ego-Exo 4D 围绕同时捕捉的以自我为中心和以外部为中心熟练的人类活动视频（例如，运动、音乐、舞蹈、自行车修理）。来自全球 13 个城市的 740 名参与者在 123 种不同的自然场景环境中进行了这些活动，产生了每次 1 到 42 分钟的长篇内容捕捉和总共 1,286 小时的视频。该数据集的多模态性前所未有：视频伴随着多通道音频、眼神注视、3D 点云、相机姿势、IMU 和多种成对的语言描述——包括由教练和老师制作并针对熟练的活动领域量身定制的“专家评论”。为了推动第一人称视频对熟练的人类活动理解，还提供了一套基准任务及其注释，包括细粒度活动理解 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博