ECCV 2024 | 像ChatGPT一样，聊聊天就能实现三维场景编辑

机器之心 · 公众号 · AI · 2024-10-05 09:01

主要观点总结

本文介绍了机器之心AIxiv专栏及其报道内容，重点介绍了一个名为CE3D的交互式三维场景编辑框架。该框架由大语言模型驱动，可集成任意数量视觉模型，突破现有文本驱动3D场景编辑方法的限制。CE3D将3D场景的编辑变成2D空间上图集的编辑，通过Hash-Atlas网络实现场景视图和图集之间的映射。文章还介绍了CE3D的方法流程、核心思想、技术细节及与其他方法的对比。

关键观点总结

关键观点1: 机器之心AIxiv专栏概述

机器之心发布学术、技术内容的栏目，过去数年接收了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

关键观点2: CE3D框架介绍

一种由大语言模型驱动的交互式三维场景编辑框架，可集成任意数量视觉模型，文本形式不再受限，编辑能力不再单一。

关键观点3: CE3D方法流程

通过ChatGPT解析文本，确定是否需要视觉工具；调用模型库中的视觉工具并为其提供参数；执行视觉工具编辑图集，并映射回3D场景视图。

关键观点4: Hash-Atlas网络

将3D场景的不同视图映射到2D图集中，实现场景视图和图集之间的映射。为了满足适配已有2D多模态编辑模型的条件，设计了基于哈希结构的网络。

关键观点5: CE3D的优势

兼容任意2D和3D视觉模型，实现多模态编辑模型和3D场景表示模型间的完全解耦。具有强大的对话能力和场景编辑能力。

关键观点6: CE3D的挑战

在处理360度场景时可能会遇到挑战，需要进一步研究。

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 论文《Chat Edit 3D: Interactive 3D Scene Editing via Text Prompts》的作者包括来自北京航空航天大学博士生方双康、北京航空航天大学副研究员王玉峰，谷歌AI技术主管Tsai Yi-Hsuan，旷视高级研究员杨弋，北京航空航天大学研究员丁文锐，旷视首席科学家周舒畅，加州大学默塞德分校和谷歌DeepMind研究科学家Yang Ming-Hsuan教授。项目地址：https://sk-fun.fun/CE3D/ 代码：https://github.com/Fangkang515/CE3D/tree/main 论文：https://arxiv.org/abs/2407.06842 机构：北航 & 谷歌 & 旷视 1. 一句话概括本文设计了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博