「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

机器之心 · 公众号 · AI · 2024-12-10 16:13

主要观点总结

近期，斯坦福大学教授李飞飞团队推出首个空间智能模型，仅通过单张图片生成逼真的3D世界。同时，国内智源研究院也发布了首个利用互联网视频学习的3D生成模型See3D。See3D采用视觉条件技术，不依赖昂贵的3D或相机标注，能从互联网视频中学习3D先验，支持多种3D创作应用，相关模型、代码、Demo均已开源。文章还介绍了See3D的研究动机、方法介绍以及优势等。

关键观点总结

关键观点1: 李飞飞团队推出空间智能模型，实现单张图片生成3D世界。

该模型被认为是迈向空间智能的第一步。

关键观点2: 国内智源研究院发布3D生成模型See3D。

See3D采用视觉条件技术，支持从文本、单视图和稀疏视图到3D的生成，支持3D编辑与高斯渲染。

关键观点3: See3D模型的优势。

See3D支持相机可控的多视角图像生成，具有数据扩展性、相机可控性和几何一致性等优点。

关键观点4: See3D的研究动机和方法介绍。

See3D旨在通过视频中的多视图信息，让模型像人类一样学习并推理物理世界的三维结构。为了实现这一点，See3D提供了一套系统化的解决方案，包括数据集构建、模型设计和3D生成框架等。

文章预览

机器之心发布机器之心编辑部近日，著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型，仅输入单张图片，即可生成一个逼真的 3D 世界，这被认为是迈向空间智能的第一步。几乎同时，国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D 生成模型 See3D ---See Video, Get 3D。不同于传统依赖相机参数（pose-condition）的 3D 生成模型，See3D 采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的 3D 或相机标注，能够高效地从多样化、易获取的互联网视频中学习 3D 先验。See3D 不仅支持零样本和开放世界的 3D 生成，还无需微调即可执行 3D 编辑、表面重建等任务，展现出在多种 3D 创作应用中的广泛适用性。 See3D 支持从文本、单视 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博