全模态预训练范式MiCo：理解任何模态并学习通用表示

AI大模型学习基地 · 公众号 · · 2024-06-19 00:08

文章预览

为了探索在大规模预训练中实现全模态智能的可能性，研究人员提出了一种名为多模态上下文MiCo（Multimodal Context）的可扩展预训练范式，旨在通过增加更多模态和数据量以及模型参数来增强全模态学习能力。构建好全模态智能后，也意味着模型能够理解任何模态并学习通用表示。 1 人脑认知启发收到人类大脑的多模态认知研究的启发提出了MiCo全模态训练框架。如图(a)所示，我们的大脑通过感官记忆中的两个不同通道— 听觉和视觉 —处理多媒体信号。感官记忆通过词语将这些信号与先前的知识整合，将新的多媒体信息转化为长期记忆。如图(b)所示，在MiCo中，将各种模态分为两种类型：知识模态和接口模态。知识模态以多种格式提供知识。例如，图像和深度图提供视觉知识，而音频和视频提供听觉和时空知识。语言模态是由人类发展起来 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

TGB湖南人 · 【11.19复盘】探底回升，这才是复工的意义

5 天前

北京LOOK · 北海公园最难进的秘境 · 每天只开1小时 | 北京LOOK

6 天前

北京LOOK · 北海公园最难进的秘境 · 每天只开1小时 | 北京LOOK

6 天前

武汉清风 · 清风伴明月廉洁过中秋 | 武汉清风祝大家中秋快乐，阖家团圆！

2 月前

央视新闻 · 将鲜肉放进冰箱，温度零下为啥不结冰？

2 周前

雪球 · 从看企业的角度，其实没人可以看到一个好企业的“永远”，但看到一个-20241106131401

2 周前