文章预览
文章介绍了一种新的多模态人群计数方法,通过模态仿真技术来弥合不同感官输入之间的差异,从而更准确地估计拥挤场景中的人数。该方法采用了双通道处理架构,包括一个 多模态推理过程 和一个 跨模态仿真过程 ,后者利用注意力提示来增强模态间的协同工作。此外,文中还提出了一种 模态对齐模块 ,使用高效的模态一致性损失来使两个处理阶段的输出保持一致,进而弥补不同模态间的语义差距。这种方法在 RGB- 热成像和 RGB- 深度数据集上的测试结果表明其优于先前的技术。 1 模型架构 1. 多模态推理过程 多模态推理过程包含了混合跨模态注意力模块( HCMA ),该模块由两种类型的注意力机制构成:直通跨模态注意力( SCMA )和调制跨模态注意力( MCMA )。 SCMA 基于多头注意力机制设计,用来捕捉来自不同模态的全局信息中的长距离上下文
………………………………