文章预览
随着我们开始与人工智能系统进行交互,这些系统需要能够以四维(4D)的方式理解视觉世界——也就是说,感知世界中的几何结构和运动。然而,图像空间中像素的差异可能由几何变化(如相机运动)或场景中的运动引起。要从单个视频中分离这两种来源是一项极具挑战性的欠约束问题。 在本文中,我构建了多个系统,用于从有限的图像观测中恢复场景表示。具体而言,我研究了一系列问题,逐步解决4D单目恢复问题中的不同方面,每个问题都针对该问题的欠约束特性提出解决方案。 首先,我研究了在没有场景运动的情况下,从欠约束输入中恢复形状的问题。具体来说,我提出了 pixelNeRF ,这是一种从单视图或少量视图合成静态场景新视角的方法。通过在多个场景中训练基于图像特征的三维神经表示,我们学习了一个场景先验。这种学习到的场
………………………………