一文彻底搞懂多模态 - 多模态学习

架构师带你玩转AI · 公众号 · · 2024-09-24 23:34

文章预览

MultiModal 多模态学习（Multimodal Learning）是一种利用来自不同感官或交互方式的数据进行学习的方法，这些数据模态可能包括文本、图像、音频、视频等。多模态学习通过融合多种数据模态来训练模型，从而提高模型的感知与理解能力，实现跨模态的信息交互与融合。接下来分三部分：模态表示、多模态融合、跨模态对齐，一起来总结下多模型的核心：多模态学习 MultiModal 一、模态表示什么是模态表示（Modal Representation ）？模态表示是将不同感官或交互方式的数据（如文本、图像、声音等）转换为计算机可理解和处理的形式，以便进行后续的计算、分析和融合。文本模态的表示：文本模态的表示方法有多种，如独热表示、低维空间表示（如通过神经网络模型学习得到的转换矩阵将单词或字映射到语义空间中）、词袋表示及其衍生出 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

EarlETF · 小微盘守住 28 日均线，还是 H股省心

15 小时前

饕餮海投资 · 猝不及防的大跌

昨天

硅谷王川 · 让人感到非常年轻的一个关键是：到处都是发财的机会，几乎没人和你竞-20241215234158

3 天前

长线投资社群 · 长线投资社群：一周交流精选（第五十期2024.12.15）

3 天前

似水之流年 · 聊几句真心话

6 天前

似水之流年 · 聊几句真心话

6 天前

医药魔方Pro · RSV疫苗命途多舛，不只Moderna

5 月前

邃瞳科学云 · 华东理工大学杨化桂团队Angew: 氧等离子体触发普鲁士蓝类似物中的Co-O-Fe基序，用于高效、稳定的碱性水氧化

1 月前