专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
目录
相关文章推荐
今天看啥  ›  专栏  ›  江大白

近一年,多模态视觉&语言大模型架构演进汇总梳理

江大白  · 公众号  ·  · 2024-07-12 08:00

文章预览

以下 文 章来源于微信公众号:吃果冻不吐果冻皮 作者:Dreamweaver 链接:https://mp.weixin.qq.com/s/nKGk4rzJqWwilWgPOg74Hw 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 近些年各种大模型层出不穷,本文对 多模态LLM (视觉-语言模型) 近一年来的模型架构演进进行了详细回顾 ,对其中有代表性的工作进行了精炼总结,希望对大家有所帮助。 本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进,对其中有代表性的工作进行了精炼总结,截止2024.06,持续更新ing... 欢迎大家多多点赞、收藏、讨论。 这篇综述一张图总结了多模态LLM的典型架构: BLIP 【2022.01发布】 [1] 统一视觉-语言理解和生成,使用captioner+filter高效利用互联网有噪数据 模型架构: •  Image/text encoder : ITC loss对齐视觉和语言表征,基于ALBEF提出的momentum distillation •  Image-gro ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览