专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

从数据中心视角看多模态大型语言模型的综述

专知  · 公众号  ·  · 2024-05-29 14:00
    

文章预览

人类通过多种感官,如视觉、嗅觉、听觉和触觉来感知世界。同样,多模态大型语言模型(MLLMs)通过整合和处理包括文本、视觉、音频、视频和3D环境在内的多种模态数据,增强了传统大型语言模型的能力。数据在这些模型的发展和优化中起到了关键作用。在这篇综述中,我们从数据中心视角全面回顾了MLLMs的相关文献。具体而言,我们探讨了在MLLMs预训练和适应阶段准备多模态数据的方法。此外,我们还分析了数据集的评估方法,并回顾了评估MLLMs的基准测试。我们的综述还概述了未来潜在的研究方向。本研究旨在为研究人员提供关于MLLMs数据驱动方面的详细理解,促进该领域的进一步探索和创新。 近年来,我们见证了大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的快速发展[280, 324]。诸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等ML ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览