注册
登录
专栏名称:
瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
小学数学
·
1-6年级列式计算专项训练,快给孩子打印练习!
·
18 小时前
小学数学
·
四年级上册数学必背知识点清单,熟背考试考满分!
·
3 天前
今天看啥
›
专栏
›
瓦力算法学研所
为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了?
瓦力算法学研所
·
公众号
· · 2024-07-23 10:00
文章预览
技术总结专栏 本篇介绍为什么多模态大语言模型(MLLM)最近的工作中用BLIP2中Q-Former结构的变少了? 简单来说,相较于MLP的方案,即LLaVA-1.5,BLIP-2中的Q-Former模型在参数量上更为庞大,其收敛过程也相对缓慢。在同等条件下,Q-Former的性能并未达到LLaVA-1.5所展现出的卓越水平。值得注意的是,即使在数据和计算资源都很充裕的情况下,Q-Former的性能提升也并不显著。 下面说明原因: 虽然许多人不愿意将Q-Former的成就归功于BLIP系列,并且更倾向于将其称为Attention Pooling。在MLP与Q-Former之间的竞争实质上反映了LLaVA系列与BLIP系列之间的竞争。社群普遍偏好MLP的选择,实际上就是对LLaVA工作的追随和支持。 下图为BLIP2和LLaVA的架构图。 从图中可以看到,使用query token来压缩视觉信息无法确保无损,并且随着压缩程度的增加,可能导致更严重的幻觉问题。相 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
小学数学
·
1-6年级列式计算专项训练,快给孩子打印练习!
18 小时前
小学数学
·
四年级上册数学必背知识点清单,熟背考试考满分!
3 天前
Chainlink预言机
·
Chainlink BUILD项目成员破百🎉
6 月前
敏芯股份
·
敏芯股份邀您相约第五届雾化物产业链展览会
4 月前
潇湘晨报
·
悬赏10万追捕赵子龙:短发谢顶,逃跑时上身赤裸!河南警方回应
3 月前
北航就业
·
宣讲+双选 | 中国机械科学研究总院集团有限公司 | 2025届校园招聘活动
3 月前
学术志
·
本硕人数倒挂加速,“二次改命”更难了
2 月前