文章预览
23年12月来自北大的论文“ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation”。 机器人操作依赖于准确预测接触点和末端执行器方向以确保操作成功。然而,基于学习的机器人操作,是在模拟器中对有限的类别进行训练的,通常难以实现泛化性,尤其是在面对广泛的类别时。因此,引入一种机器人操作方法,利用多模态大语言模型 (MLLM) 的强大推理能力来增强操作的稳定性和泛化能力。通过微调注入的适配器,保留 MLLM 固有的常识和推理能力,同时为它们配备操作能力。根本的洞察,在于引入的微调范式,包括目标类别理解、affordance先验推理和以目标为中心的姿态预测,以刺激 MLLM 在操作中的推理能力。在推理过程中,利用 RGB 图像和文本提示来预测思维链中末端执行器的姿态。在建立初始接触后,引入主动阻抗自适应策略,以
………………………………