注册登录

专栏名称: 深度学习与NLP

有幸和你一起见证世界，公众号【智先生】

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

爱可可-爱生活 · 《爱可可微博热门分享(2.20)》 ... · 21 小时前

爱可可-爱生活 · 晚安～ #晚安# -20250220225934 · 21 小时前

黄建同学 · 小知识，hf_transfer能够比HF的下 ... · 昨天

AI前线 · 发论文亲自上？创业十多年，DeepSeek梁 ... · 2 天前

新智元 · DeepSeek满血微调秘籍来了，全网首发打 ... · 2 天前

今天看啥 › 专栏 › 深度学习与NLP

多模态大模型的时代真的来了吗？

深度学习与NLP · 知乎回答 · AI · 2024-08-19 14:24

文章预览

最近的工作 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 比较深入地分析了 Q-former 结构的问题。论文链接： https:// arxiv.org/abs/2405.2098 5 先说观点： 1. 训练资源足够的条件下，我们可以在多模态大语言模型中选择 Linear Projector/MLP，作为视觉-文本模态桥接器，即 LLaVA 的路线。Linear Projector 没有视觉信息损失、训练收敛快、表现也好。唯一的问题是会导致图片 token 序列很长，这在 GPU 等训练资源足够的情况下，是可以克服的。 2. 我们想重点表达的是，训练资源有限的情况下（有限的 GPU、训练数据等），Q-former 也只是一个“低效”压缩器。如果想减少图片 token 数量来降低训练代价，简单的 AdaptiveAveragePooling 就够了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 《爱可可微博热门分享(2.20)》爱可可微博热门分享(2.2-20250220225911

21 小时前

爱可可-爱生活 · 晚安～ #晚安# -20250220225934

21 小时前

黄建同学 · 小知识，hf_transfer能够比HF的下载速度快10-100-20250220183052

昨天

AI前线 · 发论文亲自上？创业十多年，DeepSeek梁文峰的“技术男”属性从没改变

2 天前

新智元 · DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

2 天前

我爱学逻辑 · 【每日一题】轻松学判断215-图形

7 月前

财联社 · 全球多地暴发西尼罗河病毒疫情！我国或存在输入风险

5 月前

CFD界 · 一年发200篇文章，引用50万什么体验？

3 月前

东莞本地宝 · 马上开抢！广东消费券继续发放！

昨天

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号