文章预览
近年来,以谷歌RT系列为代表的视觉-语言-控制模型(VLCM,Vision-Language-Control Model)受到广泛关注。VLCM 智能体可以通过视觉理解环境,并执行人类语言所描述的任意任务,展现出了极强的 zero-shot 泛化能力。 相较于语言模型(LM),只考虑单一语言模态,视觉-语言模型(VLM)需要考虑视觉和语言两个模态,而视觉-语言-控制模型(VLCM)则需要考虑视觉、语言和控制三个模态,在训练需要海量的示教数据。因此,数据的缺乏也是具身智能、机器人学习面临的最严重问题之一。 为了解决数据稀缺的问题,一个通用的解决方案是表征预训练。然而,训练这样的表征是非常困难的,因为对于机器人的决策而言,一个高度抽象的语言指令所描述的是一种动态的变化过程。所以,传统多模态表征预训练需要考虑的是语言和单帧图片的对齐,而具身智能中的多模
………………………………