主要观点总结
文章介绍了Figure公司推出的新型通用控制模型Helix,它是一个能够像人一样感知、理解和行动的端到端通用控制模型。文章详细描述了Helix的功能和特点,包括其视觉-语言-动作(VLA)模型的首次实现,多机器人协作,拿起任何物品的能力,以及可立即商业化部署的优势。文章还提到了该模型的一些创新点,如使用单个神经网络权重学习所有行为,完全端到端的训练过程等。最后,文章讨论了Helix对于解决通用机器人问题和扩展人形机器人行为的重要性,并提到了Figure在扩展人形机器人行为方面的革命性进步。
关键观点总结
关键观点1: Helix是Figure推出的端到端通用控制模型,能够实现机器人的感知、理解和行动。
该模型让机器人像人一样能够通过自然语言提示拿起任何东西,包括从未见过的物品。Helix具有多个首创功能,如整个上身控制、多机器人协作等。
关键观点2: Helix使用视觉-语言-动作(VLA)模型,是首个能对整个上身进行高速率连续控制的VLA。
Helix能够实现两个机器人的共同协作,并使用同一组神经网络。它可以从自然语言提示中理解指令,并拿起几乎任何小型家居物品。
关键观点3: Helix具有完全端到端的训练过程,无需针对特定任务进行调整。
该系统由两个经过端到端训练并可通信的系统组成。它的解耦架构允许每个系统在最佳时间尺度上运行,从而实现高效的实时执行和调整动作。
关键观点4: Helix代表着一种新型的Scaling Law,能够解决通用机器人问题。
该模型具有强大的对象泛化能力,能够拿起数千种在训练中从未见过的物品。这标志着Figure在扩展人形机器人行为方面迈出了革命性的一步。
文章预览
白交 发自 凹非寺 量子位 | 公众号 QbitAI 与OpenAI断交之后, Figure 首个成果出炉: Helix ,一个端到端通用控制模型,它能让机器人像人一样感知、理解和行动。 只需自然语言提示, 机器人就能拿起任何东西 ,哪怕是从没见过的东西,比如这个活泼的小仙人掌。 从官方放出的演示中可以看到,它在接收到人类的提示后,就会按照指令逐一拿起桌上的物品放进冰箱。 嗯,是有种“机器人站着不语,只是一味地执行指令”的感觉了 。 两个机器人也可以共同协作,但有意思的一点是,他们竟然 共用同一组神经网络 。 △ 加速2倍 来看看具体是怎么一回事。 像人类一样思考的AI 从技术报告上看,这个通用“视觉-语言-动作” (VLA) 模型完成了一系列的首创: 整个上身控制 ,Helix是首个能对整个上身(包括手腕、躯干、头部和各个手指)进行高速率(200Hz)
………………………………