复旦大学和上海创智院团队联合推出 | 最新多模态大模型综述｜连续还是离散？多模态大模型的进化之路——...

机器学习算法与自然语言处理 · 公众号 · · 2024-11-18 00:00

主要观点总结

本文介绍了多模态大模型的研究现状及未来趋势，重点阐述了从输入输出空间扩展的角度出发，对多模态大模型的构建方法进行回顾。文章还讨论了多模态研究的演变、多模态大模型的构建核心、多模态对齐架构、多模态大模型的训练及评测等方面。

关键观点总结

关键观点1: 多模态大模型研究的现状及未来趋势

近年来，多模态大模型的研究呈现百花齐放的态势，研究者们开始探讨如何扩展大语言模型的输入输出空间，使其能够理解并生成多模态信息。目前，多数综述都聚焦于一个特定的角度进行讨论，存在局限性，使得LMM构建过程中的问题没有得到全面且系统性的梳理。本文则尝试从一个更加一般性的角度，即“输入输出空间扩展”出发对LMM的构建方法进行回顾。

关键观点2: 多模态研究的演变

多模态的研究范式经历了从“任务专用”到“通用架构”三个阶段的演进过程。早期的研究大多是为特定的任务设计的模型，每个任务通常需要专门的形式和数据集进行定义。随着研究的深入，研究者们引入了类似BERT的自监督预训练方法，在大规模图文对数据上进行自监督学习，获得多模态表示。为了进一步实现零样本应用，研究者们希望通过语言作为统一交互工具，将不同模态的信息与语言对齐。

关键观点3: 输入输出空间扩展在多模态大模型中的核心地位

大规模多模态模型的核心问题是如何构建和扩展输入输出空间，从而实现多模态信息的对齐和生成。文章从输入空间拓展、输出空间拓展以及输入输出空间结构的组合三个方面进行了详细的阐述。

关键观点4: 多模态对齐架构的实现

在扩展输入输出空间之后，如何在不同模态之间实现对齐是多模态大模型设计中的关键。文章介绍了根据所构建的输入输出设计对应的模型架构的方法，包括基座模型、输入对齐模块、内部对齐模块和输出对齐模块等。

关键观点5: 多模态大模型的训练

多模态大模型的训练通常包括两个阶段：基于大规模的多模态交错数据进行预训练，建立初步的跨模态关联；通过指令微调，让模型理解和遵循多模态场景下的用户指令。文章还介绍了现有模型训练设定的总结。

关键观点6: 多模态大模型的评测

文章介绍了针对不同任务要求的输出空间的不同，将评测任务分为模态理解任务、模态生成任务和幻觉诊断任务。还讨论了如何扩展至具身智能场景以及相关的模型架构、训练方法和评估方法。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博