文章预览
1 介绍 本文对多模态大型语言模型(MM-LLMs)进行了全面系统的综述,涵盖了模型架构、训练流程以及122个多模态大模型研究的概览。 文章深入探讨了输出投影器在机器翻译中的关键作用,并详细分析了模式生成器、训练管道、最先进的MM-LLM(SOTAMM-LLM)和未来发展趋势。MM-LLMs的发展方向包括扩展模型模式、丰富LLM多样性、提高MM生成能力和开发更具挑战性的基准测试。文章还提出了解决MM-LLMs在微调和幻觉缓解等方面所面临挑战的建议。MM-LLMs的时间表如图1所示。 图1 MM-LLMs的时间轴 2 模型体系结构 本节概述了通用模型架构的五个组件及其实现选择,如图2所示。MM理解的MM-LLM仅含前三个组件,训练时模式编码器、LLM主干和模式生成器通常冻结。主要优化集中于输入和输出投影器。投影器为轻量级组件,MM-LLM中可训练参数比例较小(约2%)。总参数
………………………………