专栏名称: 智猩猩Auto
聚焦智能汽车关键技术与创新产品
今天看啥  ›  专栏  ›  智猩猩Auto

ICML’24研讨会杰出论文奖!清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

智猩猩Auto  · 公众号  ·  · 2024-10-12 21:17

文章预览

近年来,以谷歌RT系列为代表的视觉-语言-控制模型(VLCM,Vision-Language-Control Model)受到广泛关注。VLCM 智能体可以通过视觉理解环境,并执行人类语言所描述的任意任务,展现出了极强的 zero-shot 泛化能力。 相较于语言模型(LM),只考虑单一语言模态,视觉-语言模型(VLM)需要考虑视觉和语言两个模态,而视觉-语言-控制模型(VLCM)则需要考虑视觉、语言和控制三个模态,在训练需要海量的示教数据。因此,数据的缺乏也是具身智能、机器人学习面临的最严重问题之一。 为了解决数据稀缺的问题,一个通用的解决方案是表征预训练。然而,训练这样的表征是非常困难的,因为对于机器人的决策而言,一个高度抽象的语言指令所描述的是一种动态的变化过程。所以,传统多模态表征预训练需要考虑的是语言和单帧图片的对齐,而具身智能中的多模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览