专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

NeurIPS 2024｜VLoRA：一种参数空间对齐的多模态大模型范式

极市平台 · 公众号 · · 2024-10-24 18:50

文章预览

↑ 点击蓝字关注极市平台作者丨CVer粉丝投稿来源丨CVer 编辑丨极市平台极市导读本文提出了一种参数空间对齐的多模态大模型范式，该范式将输入图像特征转换成LoRA权重并合并到LLM中，使LLM感知图像视觉信息。该范式避免了在LLM的输入序列中引入视觉标记，在训练和推理上都非常高效。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿主页： https://feipengma6.github.io/vlora/ 论文： https://arxiv.org/pdf/2405.20339 代码： github.com/FeipengMa6/VLoRA 1. 输入空间对齐范式 1.1 介绍在进入正题之前，我们先简单回顾一下当前主流的MLLM范式。以最具代表性的LLaVA[1]为例， Figure 1. LLaVA的结构框图对于输入的图像，通过视觉编码器（Vision Encoder）和映射模块（Projection）提取特征，得到一个由视觉标记（Visual Tokens）组成的视觉序列，然后将视觉序列和文本在序 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博