专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【ICML2024】揭示大脑中视觉-语言整合的多模态网络

专知  · 公众号  · 科技自媒体  · 2024-06-22 00:11
    

主要观点总结

文章介绍了使用多模态深度神经网络(DNNs)来探测人类大脑中多模态整合的部位的研究。通过预测观看电影时的立体脑电图(SEEG)记录,研究实现了对多模态整合部位的探测。文章比较了不同架构的DNN模型、多模态训练技术以及单模态和多模态模型的效果,并通过受控比较确定了大量的神经部位和大脑区域,在这些区域发生了多模态整合。研究发现CLIP风格的训练最适合下游神经活动预测。

关键观点总结

关键观点1: 研究目的

使用多模态深度神经网络(DNNs)探测人类大脑中多模态整合的部位,通过预测观看电影时的立体脑电图(SEEG)记录来实现这一目标。

关键观点2: 研究方法

涵盖了不同的架构(如卷积网络和Transformer)和多模态训练技术(如交叉注意力和对比学习)。进行了受控比较,对两个模型(SLIP和SimCLR)进行比较,这两个模型除了输入模态外,其余属性保持相同。

关键观点3: 研究结果

确定了大量的神经部位和大脑区域,在这些区域发生了多模态整合。发现CLIP风格的训练最适合下游神经活动预测。

关键观点4: 获取更多信息

可以通过关注专知公众号并回复“SEEG”,获取《【ICML2024】揭示大脑中视觉-语言整合的多模态网络》专知下载链接。


文章预览

我们使用(多)模态深度神经网络(DNNs)来探测人类大脑中多模态整合的部位,通过预测人类受试者在观看电影时进行的立体脑电图(SEEG)记录来实现这一目标。我们将多模态整合的部位操作化为多模态视觉-语言模型比单模态语言、单模态视觉或线性整合的语言-视觉模型更好地预测记录的区域。我们的目标DNN模型涵盖不同的架构(如卷积网络和Transformer)和多模态训练技术(如交叉注意力和对比学习)。作为关键的启用步骤,我们首先证明了训练过的视觉和语言模型在预测SEEG信号的能力上系统地优于其随机初始化的对应模型。然后,我们将单模态和多模态模型进行比较。由于我们的目标DNN模型通常具有不同的架构、参数数量和训练集(可能掩盖因整合而产生的差异),我们对两个模型(SLIP和SimCLR)进行了受控比较,这两个模型除了输入模态外 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览