专栏名称: 人工智能前沿讲习
领先的人工智能知识平台
今天看啥  ›  专栏  ›  人工智能前沿讲习

清华 & 阿里 开源 ConvLLaVA | 替代 Vision Transformer,解决图像处理中 Token 过多问题!

人工智能前沿讲习  · 公众号  ·  · 2024-06-01 13:14
    

文章预览

高分辨率大型多模态模型(LMMs)面临着视觉token过多和二次视觉复杂性的挑战。当前的高分辨率LMMs解决了二次复杂性问题,但仍然生成过多的视觉token。然而,视觉token的冗余是关键问题,因为它导致了更大的计算量。 为了减轻这个问题,作者提出了ConvLLaVA,它采用ConvNeXt这种分层 Backbone 网络作为LMM的视觉编码器,以替代Vision Transformer(ViT)。ConvLLaVA将高分辨率图像压缩成信息丰富的视觉特征,有效防止生成过量的视觉token。为了增强ConvLLaVA的能力,作者提出了两个关键优化。 由于在直接应用于高分辨率时,低分辨率预训练的ConvNeXt表现不佳,作者更新它以弥合这一差距。此外,由于ConvNeXt原始的压缩比对于更高的分辨率输入是不够的,作者训练了一个后续阶段以进一步压缩视觉token,从而减少冗余。 这些优化使得ConvLLaVA能够支持1536×1536分辨率的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览