专栏名称: 架构师带你玩转AI
分享人工智能,让所有人玩转AI
今天看啥  ›  专栏  ›  架构师带你玩转AI

一文彻底搞懂多模态 - 多模态学习

架构师带你玩转AI  · 公众号  ·  · 2024-09-24 23:34
    

文章预览

MultiModal 多模态学习(Multimodal Learning)是一种利用来自不同感官或交互方式的数据进行学习的方法,这些数据模态可能包括文本、图像、音频、视频等。 多模态学习 通过融合 多种数据模态来训练模型 ,从而提高模型的感知与理解能力,实现跨模态的信息交互与融合。 接下来 分三部分 : 模态表示 、多模态融合 、跨模态对齐, 一起来总结下多模型的核心:多模态学习 MultiModal 一、 模态表示 什么是 模态表示 (Modal Representation )? 模态表示是将不同感官或交互方式的数据(如文本、图像、声音等)转换为 计算机可理解和处理的形式 ,以便进行后续的计算、分析和融合。  文本模态的表示 :文本模态的表示方法有多种,如独热表示、低维空间表示(如通过神经网络模型学习得到的转换矩阵将单词或字映射到语义空间中)、词袋表示及其衍生出 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览