专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

NeurIPS 2024 | 中科大、微信等提出VLoRA:参数空间对齐的多模态大模型范式

PaperWeekly  · 公众号  · 科研  · 2024-10-23 13:17

文章预览

©作者 |  Feipeng Ma 单位 | 中国科学技术大学 本文提出了一种参数空间对齐的多模态大模型范式,该范式将输入图像特征转换成 LoRA 权重并合并到 LLM 中,使 LLM 感知图像视觉信息。该范式避免了在 LLM 的输入序列中引入视觉标记,在训练和推理上都非常高效。论文已被 NeurIPS 2024 接收,论文链接和代码均已公开,欢迎交流。 文章链接: https://arxiv.org/pdf/2405.20339 代码链接: https://github.com/FeipengMa6/VLoRA 项目主页: https://feipengma6.github.io/vlora/ 输入空间对齐范式 1.1 介绍 在进入正题之前,我们先简单回顾一下当前主流的 MLLM 范式。以最具代表性的 LLaVA [1] 为例: ▲ Figure 1. LLaVA的结构框图 对于输入的图像 ,通过视觉编码器(Vision Encoder)和映射模块(Projection)提取特征,得到一个由视觉标记(Visual Tokens)组成的视觉序列,然后将视觉序列和文本在序 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览