Generative Spatial Transformer：联合空间定位与视角预测的自回归模型

ADFeed · 公众号 · · 2024-11-01 11:15

文章预览

Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction 介绍： https://sotamak1r.github.io/gst/ 论文： https://arxiv.org/abs/2410.18962v1 Generative Spatial Transformer （GST）是一种创新的自回归模型，它能够联合处理空间定位和视角预测任务。 GST 通过创新的相机标记化方法，将2D图像表示和相机姿态表示统一在3D视觉领域内，实现了从单张图像估计相机姿态和从新的相机姿态预测视角的能力。这种统一的训练范式不仅提高了两项任务的性能，还突出了空间感知和视觉预测之间的内在联系。 GST 的特点在于其能够模拟人类对3D空间的理解方式，通过将相机作为连接2D投影和3D空间的桥梁，使得模型能够在给定观察图像的情况下，自回归地生成另一个模态的结果。此外，GST在单张新视角合成和相对相机姿态估计任务上达到了最先进的性能，为基于视觉的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博