文章预览
打 造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “ 单目图像或视频的深度估计是连接2D观测和3D世界之间的桥梁,这一直是计算机视觉中一个长期存在的基本问题。 它具有广泛的应用场景,例如混合现实、人工智能生成的内容、自动驾驶和机器人等。 随着基础模型的快速进展,我们见证了单目图像深度估计的重大进展。然而,所有这些方法都是为静态图像量身定制的,没有考虑视频中的时间信息。当直接将它们应用于视频时,会观察到时间不一致或闪烁问题。 为了解决这个问题,作者提出了DepthCrafter,这是一种创新的方法,它可以为开放世界视频生成具有复杂细节的时间一致的长深度序列,而不需要任何补充信息,如相机姿态或光流。 该训练方法使模型能够一次生成长度可变的深度序列,最多可达110帧,并从
………………………………