专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

多模态视觉-语言大模型的架构演进

关于NLP那些你不知道的事 · 公众号 · · 2024-07-02 07:00

文章预览

作者：Dreamweaver 原文地址：https://zhuanlan.zhihu.com/p/693885420 本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进，对其中有代表性的工作进行了精炼总结，截止2024.04，持续更新ing... 欢迎大家多多点赞、收藏、讨论首先，推荐一篇启发我很多的综述和对应的项目地址（本文的封面图也来自该综述） A Survey on Multimodal Large Language Models https://arxiv.org/abs/2306.13549 Awesome-Multimodal-Large-Language-Models https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models 这篇综述一张图总结了多模态LLM的典型架构： BLIP 【2022.01发布】 https:// https://arxiv.org/abs/2201.12086 6 统一视觉-语言理解和生成，使用captioner+filter高效利用互联网有噪数据模型架构： Image/text encoder: ITC loss对齐视觉和语言表征，基于ALBEF提出的momentum distillation Image-grounded text encoder: ITM loss建模视觉-语言交互， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博