专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
今天看啥  ›  专栏  ›  智驾实验室

MaskFuser : 端到端自动驾驶联合多模态令牌的掩蔽融合,实现图像与激光雷达的深度融合 !

智驾实验室  · 公众号  ·  · 2024-08-17 08:00
    

文章预览

ADAS  Laboratory 点击上方 蓝字 关注  智驾实验室           加入【 智驾实验室 】交流群, 获取更多内容和资料 当前的多模态驾驶框架通常通过在单模态分支之间使用注意力机制来融合表示。然而,现有的网络仍然抑制了驾驶性能,因为图像和激光雷达分支是独立的,缺乏统一的观察表示。 因此,本文提出了MaskFuser,它将各种模态标记化为统一的语义特征空间,并为在驾驶环境中的进一步行为克隆提供联合表示。在统一的标记表示下,MaskFuser是首次引入跨模态 Mask 自动编码器训练的工作。Mask 训练通过在 Mask 标记上的重建增强了融合表示。 在架构上,提出了一种混合融合网络,结合了早期融合和晚期融合的优势:在早期融合阶段,通过在分支之间执行单调到BEV翻译注意力来融合模态; 晚期融合是通过将各种模态标记化为统一的标记空间并在其上 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览