机器人轻松模仿人类，还能泛化到不同任务和智能体！微软新研究，学习人类和机器人统一动作表示

量子位 · 公众号 · AI · 2024-10-22 17:56

主要观点总结

微软提出了一种名为IGOR（Image-GOal Representation）的新方法，用于让机械臂模仿人类动作。该方法通过“投喂”模型人类与现实世界的交互数据，为机器人学习一个统一的动作表示空间。这种新方法解决了在训练具身智能领域的基础模型时，高质量带有标签的机器人数据难以获取的问题。IGOR框架包含三个基础模型：Latent Action Model、Policy Model和World Model，它们共同实现了跨任务和智能体的知识迁移以及下游任务效果的提升。

关键观点总结

关键观点1: IGOR方法简介

微软提出的IGOR方法，通过构建统一动作表示空间，实现机械臂模仿人类动作。解决了高质量机器人数据的获取难题。

关键观点2: IGOR框架的组成部分

IGOR框架包括三个基础模型：Latent Action Model、Policy Model和World Model，它们协同工作以实现跨任务和跨智能体的迁移学习。

关键观点3: Latent Action Model的作用

Latent Action Model以无监督的方式从互联网规模的视频数据中学习和标注潜在动作，实现跨任务和跨智能体的迁移。

关键观点4: Policy Model和World Model的角色

Policy Model根据视频帧和文本指令预测智能体动作，而World Model根据历史视频帧和潜在动作表示生成未来视频帧。两者共同提高了机器人执行任务的效率和准确性。

关键观点5: IGOR方法的应用前景

IGOR方法使得机器人能够更容易地模仿人类动作，为实现更通用的智能体奠定了基础，对于机器人技术的发展具有重要意义。

文章预览

IGOR团队投稿量子位 | 公众号 QbitAI 让机械臂模仿人类动作的新方法来了，不怕缺高质量机器人数据的那种。微软提出图像目标表示（IGOR，Image-GOal Representation），“投喂”模型人类与现实世界的交互数据。 IGOR能直接为人类和机器人学习一个统一的动作表示空间，实现跨任务和智能体的知识迁移以及下游任务效果的提升。要知道，在训练具身智能领域的基础模型时，高质量带有标签的机器人数据是保证模型质量的关键，而直接采集机器人数据成本较高。考虑到互联网视频数据中也展示了丰富的人类活动，包括人类是如何与现实世界中的各种物体进行交互的，由此来自微软的研究团队提出了IGOR。究竟怎样才能学到人类和机器人统一的动作表示呢？ IGOR框架解读 IGOR框架如下所示，包含三个基础模型： Latent Action Model、Policy Model和World Model 。具 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博