近一年，多模态视觉&语言大模型架构演进汇总梳理

江大白 · 公众号 · · 2024-07-12 08:00

文章预览

以下文章来源于微信公众号：吃果冻不吐果冻皮作者：Dreamweaver 链接：https://mp.weixin.qq.com/s/nKGk4rzJqWwilWgPOg74Hw 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读近些年各种大模型层出不穷，本文对多模态LLM (视觉-语言模型) 近一年来的模型架构演进进行了详细回顾，对其中有代表性的工作进行了精炼总结，希望对大家有所帮助。本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进，对其中有代表性的工作进行了精炼总结，截止2024.06，持续更新ing... 欢迎大家多多点赞、收藏、讨论。这篇综述一张图总结了多模态LLM的典型架构： BLIP 【2022.01发布】 [1] 统一视觉-语言理解和生成，使用captioner+filter高效利用互联网有噪数据模型架构： • Image/text encoder : ITC loss对齐视觉和语言表征，基于ALBEF提出的momentum distillation • Image-gro ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博