为什么最近多模态大模型工作中用Q-Former结构的变少了？

机器学习算法与自然语言处理 · 公众号 · · 2024-08-19 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | PaperWeekly 作者 | 姚林丽@北京大学研究方向 | 多模态理解我们组最近的工作 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 比较深入地分析了 Q-former 结构的问题。论文题目： DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 论文链接： https://arxiv.org/abs/2405.20985 先说观点： 1. 训练资源足够的条件下，我们可以在多模态大语言模型中选择 Linear Projector/MLP，作为视觉-文本模态桥接器，即 LLaVA 的路线。Linear Projector 没有视觉信息损失、训练收敛快、表现 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北美留学生观察 · 20%名校学生含泪辍学！「断供潮」席卷到英美大学……

22 小时前

北美留学生观察 · 日本小红书网友一句话，竟然让中日两国网友可以无缝交流

2 天前

brainnews · 标准与规范 | 阿尔茨海默病体液标志物临床应用中国指南（2024版）

4 月前

地产壹线自选完美模式 · 洋正北京顶豪别墅傲云

3 月前

中国建筑 · “长龙”舞蓉城，成都地铁27号线一期全线开通运营丨塑强基建支柱优势

1 月前

界面新闻 · 全国铁路春运今日启动，预计发送旅客5.1亿人次

4 周前