文章预览
作者丨王利民@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/29826500937 编辑丨极市平台 导读 本文提出了一种新的机器人操作范式,通过将互联网规模的基础模型生成的语言推理分割掩码融入端到端策略模型中,实现了样本高效的泛化能力,显著提升了机器人在新物体、新环境下的操作性能。此外,作者还设计了一个双流策略模型(TPM),通过局部-全局感知方式处理图像和掩码信息,进一步增强了模型的泛化能力和操作精度。 本文介绍我们组(南京大学媒体计算研究组)在具身智能领域的系列工作之一 TPM,该工作和MSRA、人大等机构合作,论文最初版完成于23年6月,目前arxiv上已更新了最新版。 论文链接: Transferring Foundation Models for Generalizable Robotic Manipulation https://arxiv.org/abs/2306.05716v5 Pave the Way to Grasp Anything: Transferring Foundation Models for Universal Pic
………………………………