文章预览
ADAS Laboratory 点击上方 蓝字 关注 智驾实验室 加入【 智驾实验室 】交流群, 获取更多内容和资料 由于其具有文本到图像合成的特性,扩散模型 recently 在视觉感知任务上看到了上升,如深度估计。良好质量的数据集的缺乏使得为扩散模型提取微细语义上下文具挑战性。 细节较少的语义上下文进一步恶化创建有效文本嵌入的过程,这些嵌入将作为扩散模型的输入。 在本文中,作者提出了一种新颖的 EDADepth,这是一种增强的数据增强方法,可以用于估计单眼深度而无需使用额外的训练数据。作者使用 Swin2SR,一种超分辨率模型,来增强输入图像的质量。 作者采用 BEiT 预训练语义分割模型,以更好地提取文本嵌入。作者还引入了 BLIP-2 标记器来生成这些文本嵌入中的标记。 作者方法的新颖之处在于在基于扩散的单眼深度估计流水线中引入
………………………………