今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

GR-2:用于机器人操纵的网络规模知识生成视频-语言-动作(VLA)模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-10-23 03:57
    

文章预览

24年10月来自字节的论文“GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation”。 GR-2,是一款先进的通用机器人智体,可用于多功能和可泛化的机器人操纵。GR-2 首先在大量互联网视频上进行预训练,捕捉世界的动态。这项大规模预训练涉及 3800 万个视频片段和超过 500 亿个tokens,使 GR-2 能够在后续的策略学习中泛化到各种机器人任务和环境。此后,GR-2 针对视频生成和使用机器人轨迹的动作预测进行了微调。它表现出多任务学习能力,在 100 多项任务中实现了 97.7% 的平均成功率。此外,GR-2 还展示了对新的、以前从未见过的场景的出色泛化能力,包括新的背景、环境、目标和任务。值得注意的是,GR-2 可以随着模型大小的有效扩展,凸显其持续增长和应用的潜力。 高容量基础模型的兴起为语言 [1]、图像 [2] 和视频 [3] 处理任务 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览