专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

多模态入门--CogVLM,VILA,MM1,MM1.5和Pixtral-12B

AINLP  · 公众号  ·  · 2025-01-17 18:25
    

文章预览

这篇主要包括CogVLM,VILA,MM1,MM1.5和Pixtral-12B。 1.CogVLM 论文:《CogVLM: Visual Expert for Pretrained Language Models》 时间:2023年11月 在这之前的VLM工作大致有两个做法: 浅对齐 shallow alignment:即只训练对齐部分的参数,比如InstructBLIP和MiniGPT-4;这样带来的问题是,LLM中缺乏很多图像领域的概念,因此会出现很多无法对齐的情况,导致效果不好 训练LLM:比如Qwen-VL,在预训练或者SFT阶段训练LLM,这样做的话多模态的效果明显会比浅对齐好些,但是带来的问题是在语言能力上却会受到较大的损害,如下图: CogVLM想要做的是,既能更好对齐图文空间,又能不损害LLM的语言能力。 1.1.模型结构 为次CogVLM提出了这样的结构: 注意只有紫色部分的参数才会参与训练,其他参数是冻结的。 包含4个部分: ViT encoder:这个比较常规,使用EVA2-CLIP-E的ViT模型,去掉了最后一层 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览