为什么最近多模态大模型工作中用Q-Former结构的变少了？

FightingCV · 公众号 · · 2024-08-18 09:40

文章预览

关注“ FightingCV ”公众号回复“ AI ”即可获得超100G人工智能的教程点击进入→ FightingCV交流群我们组最近的工作 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 比较深入地分析了 Q-former 结构的问题。论文链接： https://arxiv.org/abs/2405.20985 先说观点： 1. 训练资源足够的条件下，我们可以在多模态大语言模型中选择 Linear Projector/MLP，作为视觉-文本模态桥接器，即 LLaVA 的路线。Linear Projector 没有视觉信息损失、训练收敛快、表现也好。唯一的问题是会导致图片 token 序列很长，这在 GPU 等训练资源足够的情况下，是可以克服的。 2. 我们想重点表达的是，训练资源有限的情况下（有限的 GPU、训练数据等），Q-former 也只是一个“低效”压缩器。如果想减少图片 token 数量来降低训练代价，简单的 AdaptiveAveragePooling 就够了。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

跟宇宙结婚 · 节目更新：vol.448 跟新番动画结婚 2025年1月篇｜跟宇宙结婚

昨天

长春晚报 · 停业一年！事关长春这家医院红旗院区

昨天

长春晚报 · 停业一年！事关长春这家医院红旗院区

昨天

跟宇宙结婚 · 回味电影首映礼：2024年我们在《雪豹》首映礼上拍摄的照片｜跟宇宙结婚

2 天前

跟宇宙结婚 · 日常絮叨：上饿了么搜【跟宇宙结婚】领红包哟

2 天前

墨语的自言推书 · 沉浸式脱口秀《克莱因历史》一个人演出整个历史，整个世界

2 天前

Sportz Performance Frontiers · 乳酸阈训练在长跑运动员表现提升中的应用与未来趋势

8 月前

兵团零距离 · 晚安·兵团 | 极致的风景，能够治愈心灵创伤

1 月前

兵团零距离 · 晚安·兵团 | 极致的风景，能够治愈心灵创伤

1 月前

forcode · 回复@股海拾贝大漠: 微信恐怕没有跨APP进行操作的权限，只有操-20250216221413

2 天前