专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式，AI性能暴涨超20%

新智元 · 公众号 · AI · 2024-10-06 12:18

主要观点总结

本文介绍了来自MIT、MetaFAIR团队的异构预训练Transformer（HPT）模型，该模型旨在解决通用机器人模型的异构性难题。文章详细描述了HPT模型的核心要素、架构、预训练方式以及实验验证。HPT模型通过预训练一个大型、可共享的神经网络主干，学习与任务和机器人形态无关的共享表示。研究表明，HPT模型在模拟器基准和真实世界环境中，将未见任务微调策略性能提升20%。文章还介绍了研究人员如何深度了解HPT模型的核心要素，以及该模型在迁移学习中的表现。

关键观点总结

关键观点1: HPT模型解决了通用机器人模型的异构性难题。

HPT模型通过预训练一个大型、可共享的神经网络主干，学习与任务和机器人形态无关的共享表示。

关键观点2: HPT模型的架构和预训练方式。

HPT模型包括stem结构、trunk结构和预训练过程。stem结构将来自不同本体的异构输入映射为固定维度、固定数量的token，trunk结构是一个有潜在d维空间的Transformer结构，参数量固定，在不同的本体和任务之间共享，以捕获复杂的输入-输出关系。预训练过程旨在最小化数据集中的损失。

关键观点3: HPT模型在模拟器基准和真实世界环境中的表现。

研究表明，HPT模型在模拟器基准和真实世界环境中，将未见任务微调策略性能提升20%。在迁移学习中，预训练的HPT模型可以迁移到模拟和现实世界中的全新本体、任务、以及环境中，并表现出良好的性能。

关键观点4: 研究团队的介绍。

文章最后介绍了研究团队的成员，包括Lirui Wang、Xinlei Chen、Jialiang Zhao和Kaiming He，他们分别来自MIT CSAIL和Meta Fair实验室。

文章预览

新智元报道编辑：桃子乔杨【新智元导读】通用机器人模型，如何解决异构性难题？来自MIT、Meta FAIR团队全新提出异构预训练Transformer（HPT），不用从头训练，即可破解。通用机器人模型，目前最大的障碍便是「异构性」。也就是说，必须收集全方位——每个机器人、任务和环境的特定数据，而且学习后的策略还不能泛化到这些特定设置之外。由此，AI大神何恺明带队的MIT、Meta FAIR团队，提出了异构预训练Transformer（HPT）模型。即预训练一个大型、可共享的神经网络主干，就能学习与任务和机器人形态无关的共享表示。简单讲，就是在你的策略模型中间放置一个可扩展的Transformer，不用从头开始训练！论文地址：https://arxiv.org/pdf/2409.20537 研究人员将不同本体视觉输入对齐到统一的token序列，再处理这些token以控制不同任务的机器人。最 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博