讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Ego-Exo 4D:从第一人称和第三人称视角理解熟练的人类活动

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-23 00:04

文章预览

24年4月来自Meta FAIR为首的众多研究机构合写论文“Ego-Exo 4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives”。 Ego-Exo4D 是一个多样化、大规模的多模态多视角视频数据集和基准挑战。Ego-Exo 4D 围绕同时捕捉的以自我为中心和以外部为中心熟练的人类活动视频(例如,运动、音乐、舞蹈、自行车修理)。来自全球 13 个城市的 740 名参与者在 123 种不同的自然场景环境中进行了这些活动,产生了每次 1 到 42 分钟的长篇内容捕捉和总共 1,286 小时的视频。该数据集的多模态性前所未有:视频伴随着多通道音频、眼神注视、3D 点云、相机姿势、IMU 和多种成对的语言描述——包括由教练和老师制作并针对熟练的活动领域量身定制的“专家评论”。为了推动第一人称视频对熟练的人类活动理解,还提供了一套基准任务及其注释,包括细粒度活动理解 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览