主要观点总结
本文介绍了多模态大模型的研究现状及未来趋势,重点阐述了从输入输出空间扩展的角度出发,对多模态大模型的构建方法进行回顾。文章还讨论了多模态研究的演变、多模态大模型的构建核心、多模态对齐架构、多模态大模型的训练及评测等方面。
关键观点总结
关键观点1: 多模态大模型研究的现状及未来趋势
近年来,多模态大模型的研究呈现百花齐放的态势,研究者们开始探讨如何扩展大语言模型的输入输出空间,使其能够理解并生成多模态信息。目前,多数综述都聚焦于一个特定的角度进行讨论,存在局限性,使得LMM构建过程中的问题没有得到全面且系统性的梳理。本文则尝试从一个更加一般性的角度,即“输入输出空间扩展”出发对LMM的构建方法进行回顾。
关键观点2: 多模态研究的演变
多模态的研究范式经历了从“任务专用”到“通用架构”三个阶段的演进过程。早期的研究大多是为特定的任务设计的模型,每个任务通常需要专门的形式和数据集进行定义。随着研究的深入,研究者们引入了类似BERT的自监督预训练方法,在大规模图文对数据上进行自监督学习,获得多模态表示。为了进一步实现零样本应用,研究者们希望通过语言作为统一交互工具,将不同模态的信息与语言对齐。
关键观点3: 输入输出空间扩展在多模态大模型中的核心地位
大规模多模态模型的核心问题是如何构建和扩展输入输出空间,从而实现多模态信息的对齐和生成。文章从输入空间拓展、输出空间拓展以及输入输出空间结构的组合三个方面进行了详细的阐述。
关键观点4: 多模态对齐架构的实现
在扩展输入输出空间之后,如何在不同模态之间实现对齐是多模态大模型设计中的关键。文章介绍了根据所构建的输入输出设计对应的模型架构的方法,包括基座模型、输入对齐模块、内部对齐模块和输出对齐模块等。
关键观点5: 多模态大模型的训练
多模态大模型的训练通常包括两个阶段:基于大规模的多模态交错数据进行预训练,建立初步的跨模态关联;通过指令微调,让模型理解和遵循多模态场景下的用户指令。文章还介绍了现有模型训练设定的总结。
关键观点6: 多模态大模型的评测
文章介绍了针对不同任务要求的输出空间的不同,将评测任务分为模态理解任务、模态生成任务和幻觉诊断任务。还讨论了如何扩展至具身智能场景以及相关的模型架构、训练方法和评估方法。
文章预览
MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 复旦DISC ,复旦大学数据智能与社会计算实验室 Fudan DISC 近年来,多模态大模型(LMM)相关的研究百花齐放。然而,现有的综述缺乏对LMM构建中各方面的研究问题的全面讨论。为此,来自复旦大学的研究团队尝试从一个更加具有 一般性 的角度—— “输入输出空间扩展” 出发,分析了 577篇 多模态大模型相关论文,全面系统地总结了当前多模态大模型的研究现状及未来趋势。 综述链接 (点击文末 阅读原文 即可跳转): https://www.preprints.org/manuscript/202411.0685 01 引言 ✦ 从ChatGPT问世,大语言模型(Large
………………………………