文章预览
MultiModal 多模态学习(Multimodal Learning)是一种利用来自不同感官或交互方式的数据进行学习的方法,这些数据模态可能包括文本、图像、音频、视频等。 多模态学习 通过融合 多种数据模态来训练模型 ,从而提高模型的感知与理解能力,实现跨模态的信息交互与融合。 接下来 分三部分 : 模态表示 、多模态融合 、跨模态对齐, 一起来总结下多模型的核心:多模态学习 MultiModal 一、 模态表示 什么是 模态表示 (Modal Representation )? 模态表示是将不同感官或交互方式的数据(如文本、图像、声音等)转换为 计算机可理解和处理的形式 ,以便进行后续的计算、分析和融合。 文本模态的表示 :文本模态的表示方法有多种,如独热表示、低维空间表示(如通过神经网络模型学习得到的转换矩阵将单词或字映射到语义空间中)、词袋表示及其衍生出
………………………………