讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Assembly101:用于理解程序活动的大规模多视图视频数据集

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-19 00:23

主要观点总结

文章介绍了Assembly101数据集,该数据集包含4321个视频,记录人们组装和拆卸101辆“可拆卸”玩具车的过程。数据集具有静态和自我中心的记录,包括粗粒度和细粒度动作标注、3D手势、技能水平和错误标注等。文章还讨论了与其他数据集的比较和特色,比如多步活动、自我中心和多视角的数据集等。

关键观点总结

关键观点1: Assembly101数据集的特点

包含4321个视频,记录人们组装和拆卸玩具车的过程;具有静态和自我中心的记录;包括丰富的动作标注、3D手势、技能水平和错误标注等。

关键观点2: 与其他数据集的比较

与其他数据集相比,Assembly101同时具有自我中心和第三人称视角,提供从外到内的同步特别信息以及用于3D动作识别的多视角自我中心数据。

关键观点3: 数据集的构建方式

使用多摄像头桌面装置进行录制,包括八个RGB摄像头和四个单色摄像头;参与者的招募以及玩具的选择和协议等。


文章预览

22年3月来自Meta和新加坡国立的论文“Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities”。 Assembly101 是一个新的程序性活动数据集,包含 4321 个视频,记录了人们组装和拆卸 101 辆“可拆卸”玩具车的过程。参与者的工作没有固定的指示,序列在动作顺序、错误和更正方面具有丰富而自然的多变。Assembly101 是第一个多视图动作数据集,同时具有静态(8)和自我中心(4)记录。序列注释超过 100K 个粗粒度动作片段和 1M 个细粒度动作片段以及 18M 个 3D 手势。 对三个动作理解任务进行基准测试:识别、预估和时间分割。此外,提出一项检测错误的新任务。独特的记录格式和丰富的注释集能够研究对新玩具、跨视图迁移、长尾分布以及姿势与外观的泛化。 如图所示:Assembly101 包括同步静态多视角和自我中心记录,记录参与者组装和拆 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览