文章预览
关注Xbot具身知识库 福利来袭: 关注“Xbot具身知识库”+评论“获取资料”,即可获得具身知识库基础学习资料(后附资料目录),感兴趣的学员可以积极参与。 本文转自视觉语言导航 作者: Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu 单位:中国科学院空天信息创新研究院网络信息系统技术重点实验室,中国科学院大学电子电气与通信工程学院 原文链接: AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models (https://arxiv.org/pdf/2408.15511) 主要贡献 构建了首个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k : 该数据集利用无人机从第一人称视角拍摄的高分辨率城市图像,涵盖了广泛的城市场景。 数据集包含10,000张图像,用于增强无人机智能体在理解和描述真实城市环境中的能力。 开发了虚拟图像-
………………………………