迁移视觉基础模型实现可泛化的机器人操作能力

新机器视觉 · 公众号 · · 2025-03-20 16:45

文章预览

作者丨王利民@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/29826500937 编辑丨极市平台导读本文提出了一种新的机器人操作范式，通过将互联网规模的基础模型生成的语言推理分割掩码融入端到端策略模型中，实现了样本高效的泛化能力，显著提升了机器人在新物体、新环境下的操作性能。此外，作者还设计了一个双流策略模型（TPM），通过局部-全局感知方式处理图像和掩码信息，进一步增强了模型的泛化能力和操作精度。本文介绍我们组（南京大学媒体计算研究组）在具身智能领域的系列工作之一 TPM，该工作和MSRA、人大等机构合作，论文最初版完成于23年6月，目前arxiv上已更新了最新版。论文链接： Transferring Foundation Models for Generalizable Robotic Manipulation https://arxiv.org/abs/2306.05716v5 Pave the Way to Grasp Anything: Transferring Foundation Models for Universal Pic ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

九章算法 · 寻找一个leetcode刷题搭子

昨天

一亩三分地Warald · 网站被黑！纽约大学录取黑幕曝光，华人学生被严重歧视！差200分！

昨天

一亩三分地Warald · 网站被黑！纽约大学录取黑幕曝光，华人学生被严重歧视！差200分！

昨天

中国计算机学会 · CNCC | 卫星互联网安全：挑战与应对之策，如何筑起卫星互联网的“防火墙”

5 月前

独角兽智库 · 大摩：大幅下调2025年GB200出货量

1 月前