文章预览
来源:专知 本文 约1000字 ,建议阅读 5 分钟 在本论文中,我构建了多个系统,用于从有限的图像观测中恢复场景表示。 随着我们开始与人工智能系统进行互动,我们需要它们能够以 4D 视角解读视觉世界——即感知世界中的几何结构和运动。然而,图像空间中的像素差异可能来自几何结构(通过相机运动)或世界中的场景运动。要从单一视频中解开这两种来源是极度欠约束的。 在本论文中,我构建了多个系统,用于从有限的图像观测中恢复场景表示。具体来说,我研究了一系列问题,这些问题构建了通向 4D 单目恢复问题的路径,每个问题都解决了该问题欠约束的不同方面。首先,我研究了在没有场景运动的情况下从欠约束输入中恢复形状的问题。具体而言,我提出了 pixelNeRF,这是一种从单个或少数视图合成静态场景新视角的方法。我们通过在多
………………………………