文章预览
24年10月来自字节的论文“GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation”。 GR-2,是一款先进的通用机器人智体,可用于多功能和可泛化的机器人操纵。GR-2 首先在大量互联网视频上进行预训练,捕捉世界的动态。这项大规模预训练涉及 3800 万个视频片段和超过 500 亿个tokens,使 GR-2 能够在后续的策略学习中泛化到各种机器人任务和环境。此后,GR-2 针对视频生成和使用机器人轨迹的动作预测进行了微调。它表现出多任务学习能力,在 100 多项任务中实现了 97.7% 的平均成功率。此外,GR-2 还展示了对新的、以前从未见过的场景的出色泛化能力,包括新的背景、环境、目标和任务。值得注意的是,GR-2 可以随着模型大小的有效扩展,凸显其持续增长和应用的潜力。 高容量基础模型的兴起为语言 [1]、图像 [2] 和视频 [3] 处理任务
………………………………