GR-2：用于机器人操纵的网络规模知识生成视频-语言-动作（VLA）模型

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-10-23 03:57

文章预览

24年10月来自字节的论文“GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation”。 GR-2，是一款先进的通用机器人智体，可用于多功能和可泛化的机器人操纵。GR-2 首先在大量互联网视频上进行预训练，捕捉世界的动态。这项大规模预训练涉及 3800 万个视频片段和超过 500 亿个tokens，使 GR-2 能够在后续的策略学习中泛化到各种机器人任务和环境。此后，GR-2 针对视频生成和使用机器人轨迹的动作预测进行了微调。它表现出多任务学习能力，在 100 多项任务中实现了 97.7% 的平均成功率。此外，GR-2 还展示了对新的、以前从未见过的场景的出色泛化能力，包括新的背景、环境、目标和任务。值得注意的是，GR-2 可以随着模型大小的有效扩展，凸显其持续增长和应用的潜力。高容量基础模型的兴起为语言 [1]、图像 [2] 和视频 [3] 处理任务 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博