人形机器人与AI大模型之Robot+AI的Transformer之旅

专知 · 公众号 · · 2024-11-08 12:00

文章预览

从Transformer到多模态大模型的演进与应用。Transformer不仅在语言处理上广泛应用，还扩展至图像、视频、音频等多模态任务。诸如StableDiffusion、VideoPoet和MusicLM等模型展现了其强大的生成能力，推动了多模态大模型（MLLM）的发展。　　机器人现实世界至数据化的突破：RT-2、RoboCat与MimicGen。RT-2通过大规模的视觉-语言预训练，将视觉识别与低级机器人控制结合，实现了机器人在复杂任务和未见环境中的强大泛化能力。RoboCat则基于Gato模型，展示了多任务和多具身平台上的自我迭代学习能力，能够快速适应新任务并生成跨任务策略。英伟达的MimicGen自动生成大量模仿学习数据，有效减少了人工干预，提升了机器人学习的效率。　　特斯拉FSD，端到端算法成为主流，数据为关键。2020年FSD引入Transformer模型，走向了数据驱动的模型范式，2024年初FSD V12完全采 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博