今天看啥  ›  专栏  ›  ADS智库

干货 | 2 万字综述多模态大型语言模型(MLLM)

ADS智库  · 公众号  ·  · 2024-07-02 07:58

文章预览

来源:AIRoobt | 首 图图源:网络 全文  2万 +   字,预计阅 读  10-15  分钟 进群交流: 点此处 摘要 最近,以 GPT-4V 为代表的多模态大型语言模型( MLLM )已成为新兴的研究热点,它使用强大的大型语言模型( LLMs )作为“大脑”来执行多模态任务。 MLLM 出人意料的涌现能力,如基于图像编写故事和无需 OCR 的数学推理,是传统多模态方法中罕见的,这表明了一条通往人工通用智能的潜在路径。为此,学术界和工业界都致力于开发能够与 GPT-4V 竞争甚至超越的 MLLM ,以惊人的速度推动研究的极限。在本文中,我们旨在追踪并总结 MLLM 的最新进展。首先,我们介绍了 MLLM 的基本公式,并概述了与其相关的概念,包括架构、训练策略和数据,以及评估。然后,我们介绍了关于如何扩展 MLLM 以支持更细粒度、模态、语言和场景的研究主题。我们继续讨论多模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览