文章预览
AIGC Research < PaperDaily> 主编 | 庄才林(Cailin Zhuang) 技术支持 |胡耀淇(Yaoqi Hu) 发布日期 |2024年 10月 24 日| 周四 Topic: Multi-modal|Open-World Interaction, Geometric Reasoning ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting ROCKET-1 2024-10-23|PKU, UCLA, BIGAI, CraftJarvis |⭐️ 🟡 http://arxiv.org/abs/2410.17856v1 https://craftjarvis.github.io/ROCKET-1 概述 ROCKET-1是一种新型的 层次化智能体架构,旨在解决开放世界环境中的互动决策问题 ,特别是在Minecraft等复杂任务中 。传统的视觉语言模型(VLMs)在多模态任务中表现优异, 但在处理低级观察与抽象概念之间的连接时存在挑战 。为了克服这些限制,ROCKET-1引入了 视觉-时间上下文提示(visual-temporal context prompting),这一创新的通信协议通过利用过去和现在的观察中的对象分割信息,来引导策略与环境的互动。 这种
………………………………