讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
一览扶桑  ·  浪漫爱情主义的终结 ·  3 小时前  
一览扶桑  ·  浪漫爱情主义的终结 ·  3 小时前  
环球网  ·  首次,他们通话了 ·  21 小时前  
环球网  ·  首次,他们通话了 ·  21 小时前  
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

ManipLLM:以目标为中心机器人操作的具身多模态大语言模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-02 00:05
    

文章预览

23年12月来自北大的论文“ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation”。 机器人操作依赖于准确预测接触点和末端执行器方向以确保操作成功。然而,基于学习的机器人操作,是在模拟器中对有限的类别进行训练的,通常难以实现泛化性,尤其是在面对广泛的类别时。因此,引入一种机器人操作方法,利用多模态大语言模型 (MLLM) 的强大推理能力来增强操作的稳定性和泛化能力。通过微调注入的适配器,保留 MLLM 固有的常识和推理能力,同时为它们配备操作能力。根本的洞察,在于引入的微调范式,包括目标类别理解、affordance先验推理和以目标为中心的姿态预测,以刺激 MLLM 在操作中的推理能力。在推理过程中,利用 RGB 图像和文本提示来预测思维链中末端执行器的姿态。在建立初始接触后,引入主动阻抗自适应策略,以 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览