文章预览
来源:投稿 作者:橡皮 编辑:学姐 论文链接:https://arxiv.org/abs/2407.20229 项目主页:https://ywyue.github.io/FiT3D unset unset 摘要: unset unset 当前的视觉基础模型纯粹基于非结构化 2D 数据进行训练,限制了它们对对象和场景的 3D 结构的理解。在这项工作中,我们表明对 3D 感知数据进行微调可以提高新兴语义特征的质量。我们设计了一种方法,将语义 2D 特征提升为高效的 3D 高斯表示,这使我们能够为任意视图重新渲染它们。使用渲染的 3D 感知功能,我们设计了一种微调策略,将这种 3D 感知转移到 2D 基础模型中。我们证明,以这种方式微调的模型产生的特征可以通过简单的线性探测轻松提高语义分割和深度估计中的下游任务性能。值得注意的是,尽管在单个室内数据集上进行了微调,但这种改进可以转移到各种室内数据集和域外数据集。我们希望我们
………………………………