文章预览
©作者 | Feipeng Ma 单位 | 中国科学技术大学 本文提出了一种参数空间对齐的多模态大模型范式,该范式将输入图像特征转换成 LoRA 权重并合并到 LLM 中,使 LLM 感知图像视觉信息。该范式避免了在 LLM 的输入序列中引入视觉标记,在训练和推理上都非常高效。论文已被 NeurIPS 2024 接收,论文链接和代码均已公开,欢迎交流。 文章链接: https://arxiv.org/pdf/2405.20339 代码链接: https://github.com/FeipengMa6/VLoRA 项目主页: https://feipengma6.github.io/vlora/ 输入空间对齐范式 1.1 介绍 在进入正题之前,我们先简单回顾一下当前主流的 MLLM 范式。以最具代表性的 LLaVA [1] 为例: ▲ Figure 1. LLaVA的结构框图 对于输入的图像 ,通过视觉编码器(Vision Encoder)和映射模块(Projection)提取特征,得到一个由视觉标记(Visual Tokens)组成的视觉序列,然后将视觉序列和文本在序
………………………………