文章预览
机器人对物体部分进行高效且零样本抓取的能力对于实际应用至关重要,并且随着视觉语言模型(VLMs)的最新进展而变得越来越普遍。为了弥补支持这种能力的表示中的二维到三维差距,现有方法依赖于通过可微渲染或基于点的投影方法的神经场(NeRFs)。然而,我们证明NeRFs由于其隐式性而不适用于场景变化,而基于点的方法在没有基于渲染的优化的情况下,对于部件定位不准确。 为了解决这些问题,我们提出了GraspSplats。通过使用深度监督和一种新颖的参考特征计算方法,GraspSplats在不到60秒的时间内生成高质量的场景表示。我们进一步通过展示GraspSplats中明确且优化的几何形状足以自然支持(1)实时抓取采样和(2)使用点跟踪器的动态和关节物体操作,来验证基于高斯表示的优势。我们在Franka机器人上进行了大量实验,证明GraspSplats在各种任
………………………………