专栏名称: 瓦力算法学研所

我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势，以及如何应用这些技术来解决实际问题，探索每一项技术落地的可行性方案。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？

瓦力算法学研所 · 公众号 · · 2024-07-23 10:00

文章预览

技术总结专栏本篇介绍为什么多模态大语言模型（MLLM）最近的工作中用BLIP2中Q-Former结构的变少了？简单来说，相较于MLP的方案，即LLaVA-1.5，BLIP-2中的Q-Former模型在参数量上更为庞大，其收敛过程也相对缓慢。在同等条件下，Q-Former的性能并未达到LLaVA-1.5所展现出的卓越水平。值得注意的是，即使在数据和计算资源都很充裕的情况下，Q-Former的性能提升也并不显著。下面说明原因：虽然许多人不愿意将Q-Former的成就归功于BLIP系列，并且更倾向于将其称为Attention Pooling。在MLP与Q-Former之间的竞争实质上反映了LLaVA系列与BLIP系列之间的竞争。社群普遍偏好MLP的选择，实际上就是对LLaVA工作的追随和支持。下图为BLIP2和LLaVA的架构图。从图中可以看到，使用query token来压缩视觉信息无法确保无损，并且随着压缩程度的增加，可能导致更严重的幻觉问题。相 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博