专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了?

瓦力算法学研所  · 公众号  ·  · 2024-07-23 10:00
    

文章预览

技术总结专栏 本篇介绍为什么多模态大语言模型(MLLM)最近的工作中用BLIP2中Q-Former结构的变少了? 简单来说,相较于MLP的方案,即LLaVA-1.5,BLIP-2中的Q-Former模型在参数量上更为庞大,其收敛过程也相对缓慢。在同等条件下,Q-Former的性能并未达到LLaVA-1.5所展现出的卓越水平。值得注意的是,即使在数据和计算资源都很充裕的情况下,Q-Former的性能提升也并不显著。 下面说明原因: 虽然许多人不愿意将Q-Former的成就归功于BLIP系列,并且更倾向于将其称为Attention Pooling。在MLP与Q-Former之间的竞争实质上反映了LLaVA系列与BLIP系列之间的竞争。社群普遍偏好MLP的选择,实际上就是对LLaVA工作的追随和支持。 下图为BLIP2和LLaVA的架构图。 从图中可以看到,使用query token来压缩视觉信息无法确保无损,并且随着压缩程度的增加,可能导致更严重的幻觉问题。相 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览