文章预览
以下 文 章来源于微信公众号:吃果冻不吐果冻皮 作者:Dreamweaver 链接:https://mp.weixin.qq.com/s/nKGk4rzJqWwilWgPOg74Hw 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 近些年各种大模型层出不穷,本文对 多模态LLM (视觉-语言模型) 近一年来的模型架构演进进行了详细回顾 ,对其中有代表性的工作进行了精炼总结,希望对大家有所帮助。 本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进,对其中有代表性的工作进行了精炼总结,截止2024.06,持续更新ing... 欢迎大家多多点赞、收藏、讨论。 这篇综述一张图总结了多模态LLM的典型架构: BLIP 【2022.01发布】 [1] 统一视觉-语言理解和生成,使用captioner+filter高效利用互联网有噪数据 模型架构: • Image/text encoder : ITC loss对齐视觉和语言表征,基于ALBEF提出的momentum distillation • Image-gro
………………………………