今天看啥  ›  专栏  ›  数据派THU

【ICML2024】揭示大脑中视觉-语言整合的多模态网络

数据派THU  · 公众号  · 大数据  · 2024-07-01 17:00
来源:专知本文为论文介绍,建议阅读5分钟我们发现,在我们评估的多模态训练技术变体中,CLIP风格的训练最适合下游神经活动预测。我们使用(多)模态深度神经网络(DNNs)来探测人类大脑中多模态整合的部位,通过预测人类受试者在观看电影时进行的立体脑电图(SEEG)记录来实现这一目标。我们将多模态整合的部位操作化为多模态视觉-语言模型比单模态语言、单模态视觉或线性整合的语言-视觉模型更好地预测记录的区域。我们的目标DNN模型涵盖不同的架构(如卷积网络和Transformer)和多模态训练技术(如交叉注意力和对比学习)。作为关键的启用步骤,我们首先证明了训练过的视觉和语言模型在预测SEEG信号的能力上系统地优于其随机初始化的对应模型。然后,我们将单模态和多模态模型进行比较。由于我们的目标DNN模型通常具有不同的架 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照