讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

RoboDreamer:学习机器人想象力的组合世界模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-30 01:31
    

文章预览

24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。 文本-转-视频模型在机器人决策方面表现出巨大潜力,能够想象未来行动的现实规划以及准确的环境模拟。然而,这类模型的一个主要问题是泛化——模型仅限于合成与训练时见过的语言指令类似视频。这严重限制了决策,寻求一个强大的世界模型来合成从未见过的目标和动作组合规划,解决新环境中从未见过的任务。为了解决这个问题,引入 RoboDreamer,一种通过分解视频生成来学习组合世界模型的创新方法。利用语言的自然组合性将指令解析为一组低级原语,以此为条件设置一组模型来生成视频。解释这种分解如何自然地实现组合泛化,允许新的自然语言指令制定为以前见过的组件组合。进一步展示这种分解如何 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览