专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

ECCV 2024 | UCF联合亚马逊提出X-Former框架,显著提升MLLM细粒度理解能力

将门创投  · 公众号  · 科技创业  · 2024-09-06 08:22

文章预览

近来多模态大型语言模型(MLLM)大多都建立在预训练视觉语言对比模型的基础之上(以CLIP模型为代表),例如将对比模型的视觉编码器直接引入到MLLM中。 这些视觉编码器在捕捉图像整体表征方面表现出了鲁棒的性能,但是在局部细节的感知仍然存在问题 。为此, 本文介绍一篇专注于改进MLLM中视觉编码器的工作,本文的研究团队来自UCF和Amazon ,目前已发表在视觉顶级会议ECCV 2024上。 本文引入了一种称为X-Former的轻量级Transformer模块, 通过将masked image modeling(MIM)获得的高频局部特征和对比学习(CL)获得的语义低频信息进行结合 ,从而实现更高效的视觉语言多模态特征建模。X-Former首先从两个冻结的视觉编码器CLIP-ViT和MAE-ViT出发,引导视觉语言表征的建模和学习。 随后作者将其部署到冻结的 LLM 中来引导视觉到语言的生成学习,这样可以确保 X- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览