速度快数百倍！基于扩散的视觉基础模型LOTUS：零样本深度和法线估计新SOTA

3D视觉之心 · 公众号 · · 2024-10-01 07:00

文章预览

点击下方卡片，关注“ 3D视觉之心 ”公众号第一时间获取 3D视觉干货 >> 点击进入→ 3D视觉之心技术交流群 “一些重要发现” 稠密预测由于训练数据的质量、多样性和规模有限，零样本泛化能力依然较差。现有方法大多直接将预训练的扩散模型应用于密集预测任务，而没有探索更适合的扩散公式。这种忽视通常会导致一系列问题，如：性能受到没有考虑密集预测与图像生成之间根本区别的限制标准的迭代去噪过程和集成推理严重限制了其效率。基于这些问题，系统地分析扩散公式，试图找到一种更适合将预训练的扩散模型用于密集预测的公式，得出了一些重要的发现：扩散式图像生成中广泛使用的参数化类型，即噪声预测，不适合密集预测。在初始去噪步骤中，噪声预测会引入大的预测误差，这些误差随后在整个去噪过程中被传播并放大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博