文章预览
多模态大型语言模型( MM-LLMs )近期取得显著进步,通过有效训练策略,使模型能处理多模态输入输出,保留并增强语言模型的推理决策能力。 MM-LLMs 不仅限于文本,还能处理图像、视频和音频等其他模态数据,推动下游任务性能提升。 MM-LLMs 改进了训练流程,增强交互能力和采用更高效架构。其迭代包括从预训练到微调,再到基于人类反馈的强化学习,体现了模型的持续优化和进步。总体而言, MM-LLMs 正朝着更广泛模态支持、更高质量数据利用和更有效模型设计的方向发展。 1 MM-LLMs的基本架构 多模态大型语言模型( MM-LLMs )的架构由五个主要组件构成: 模态编码器、输入投影器、 LLM 主干、输出投影器和模态生成器 。 模态编码器( Modality Encoder ) : 模态编码器的主要功能是将不同模态的输入转换成对应的特征表示 FX 。例如,它可以将图像
………………………………