文章预览
Arxiv:https://arxiv.org/html/2401.01065v1 本期概述 点击下方 卡片 ,关注“ 自动驾驶之星 ” 这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入 今天分析的研究内容为: BEV-CLIP。 一种用于自动驾驶复杂场景检索的多模态BEV检索方法。 BEV-CLIP的研究创新点为: 多模态检索 :第一个结合BEV特征和LLM语义的多模态检索方法。 知识图谱的集成 :将知识图谱与LLM结合,以增强语言理解的泛化能力。 共享多模态提示(SCP) :引入了共享的多模态提示结构(SCP),能够在对比学习之前提供更好的特征表示。 所谓BEV检索是做任务呢?简单来说,就是根据文字,找出对应的实例对象 。 BEV-CLIP 结合了文本查询、图像检索和鸟瞰图(BEV)检索三个方面来处理自动驾驶场景中的多模态检索任务 PipeLine BEV-CLIP的三个阶段 。包括BEV和文本特征编码、共享跨模态提示符(SCP)
………………………………