文章预览
,复旦大学数据智能与社会计算实验室 Fudan DISC 近年来,多模态大模型(LMM)相关的研究百花齐放。然而,现有的综述缺乏对LMM构建中各方面的研究问题的全面讨论。为此,来自复旦大学的研究团队尝试从一个更加具有 一般性 的角度—— “输入输出空间扩展” 出发,分析了 577篇 多模态大模型相关论文, 全面系 统地 总结了 当前多模态大模型的研究现状及未来趋势。 综述链接 (点击文末 阅读原文 即可跳转): https://www.preprints.org/manuscript/202411.0685 01 引言 ✦ 从ChatGPT问世,大语言模型(Large Language Model,简称LLM)的发展极大地推动了通往泛用性人工智能(General-purpose AI)的进程。 然而,要实现更切实广泛的应用,需要模型能够理解语言之外的信息——如图像、视频、音频等多种模态。因此,研究者们开始探讨如何扩展大语言模型的输入输出空间
………………………………