ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

智猩猩Auto · 公众号 · · 2024-10-12 21:17

文章预览

近年来，以谷歌RT系列为代表的视觉-语言-控制模型（VLCM，Vision-Language-Control Model）受到广泛关注。VLCM 智能体可以通过视觉理解环境，并执行人类语言所描述的任意任务，展现出了极强的 zero-shot 泛化能力。相较于语言模型（LM），只考虑单一语言模态，视觉-语言模型（VLM）需要考虑视觉和语言两个模态，而视觉-语言-控制模型（VLCM）则需要考虑视觉、语言和控制三个模态，在训练需要海量的示教数据。因此，数据的缺乏也是具身智能、机器人学习面临的最严重问题之一。为了解决数据稀缺的问题，一个通用的解决方案是表征预训练。然而，训练这样的表征是非常困难的，因为对于机器人的决策而言，一个高度抽象的语言指令所描述的是一种动态的变化过程。所以，传统多模态表征预训练需要考虑的是语言和单帧图片的对齐，而具身智能中的多模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博