37项SOTA！全模态预训练范式MiCo：理解任何模态并学习通用表示｜港中文&中科院

量子位 · 公众号 · AI · 2024-06-16 13:16

文章预览

MiCo团队投稿量子位 | 公众号 QbitAI GPT-4o掀起一股全模态（Omni-modal）热潮，去年的热词多模态仿佛已经不够看了。要构建全模态智能，意味着能够理解任何模态并学习通用表示 (Universal Representations)。现在，港中文、中科院等提出了一种大规模的全模态预训练范式，称为多模态上下文MiCo （Multimodal Context），它可以在预训练过程中引入更多的模态，数据量，模型参数。借助 MiCo，团队预训练的模型在多模态学习中表现出极为令人印象深刻的性能，在目前主流的三大类任务上的评估结果显示出： 10种不同模态的单模态感知基准。 25种跨模态理解任务，包括检索、问答、描述。 18种多模态大型语言模型基准，MiCo取得了37项最强性能的记录。大规模全模态预训练在AI的发展历程中, 大规模的预训练已经逐渐成为一种非常有前景的途径来实现通用智能（ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博