文章预览
利用视觉线索将物体定位在图像中的方法在计算机视觉领域得到了广泛应用,但音频作为一种模态在物体识别和定位方面的潜力仍待挖掘。 作者提出YOSS(You Only Speak Once to See)方法,利用音频进行视觉场景中物体的定位,称为音频定位。 通过对比学习结合多模态对齐,将预训练音频模型与视觉模型集成,作者的方法可以捕获语音指令或描述,并直接将其映射到图像中的相应目标。 实验结果显示,音频指导可以有效地应用于物体定位,表明将音频指导纳入当前物体定位方法可能提高其精度和鲁棒性,并提升机器人系统和计算机视觉应用的性能。 这一发现为高级物体识别、场景理解和开发更具直观性和功能的机器人系统开辟了新的可能性。 I Introduction 视觉定位旨在根据人类提供的描述,在图像中找到最相关的目标或区域。这一任务在将视觉感知与
………………………………