具身智能作为通用人工智能(AGI)研究的重要目标,旨在让机器人能够执行人类通过自然语言描述的各类任务。视觉-语言-控制模型(VLCM)是实现这一目标的关键技术,它融合了视觉理解、语言理解和动作控制三个模态。然而,VLCM模型的训练面临着数据稀缺的挑战。本文提出DecisionNCE,为利用无动作标签的分布外数据(action-free, out-of-domain)提高具身智能的问题提供了一种高效、优美、简洁的表征预训练方案,通过将机器人决策有用的信息提取到表征中,来加速下游具身智能的学习,降低其对训练数据的依赖。论文标题:DecisionNCE:Embodied Multimodal Representations via Implicit Preference Learning论文链接:https://arxiv.org/abs/2402.18137代码链接:https://github.com/2toinf/DecisionNCE?tab=readme-ov-file项目主页:https://2toinf.github.io/DecisionNCE/一、端到端训练数据的稀缺问题具身智
………………………………