文章预览
为了探索在大规模预训练中实现全模态智能的可能性,研究人员提出了一种名为多模态上下文MiCo(Multimodal Context)的可扩展预训练范式,旨在通过增加更多模态和数据量以及模型参数来增强全模态学习能力。构建好全模态智能后,也意味着模型能够理解任何模态并学习通用表示。 1 人脑认知启发 收到 人类大脑 的多模态认知研究的启发提出了MiCo全模态训练框架。如图(a)所示, 我们的大脑通过感官记忆中的两个不同通道— 听觉 和 视觉 —处理多媒体信号。感官记忆通过词语将这些信号与先前的知识整合,将新的多媒体信息转化为长期记忆。 如图(b)所示, 在MiCo中,将各种模态分为两种类型: 知识模态 和 接口模态 。知识模态以多种格式提供知识。例如,图像和深度图提供视觉知识,而音频和视频提供听觉和时空知识。语言模态是由人类发展起来
………………………………