文章预览
高分辨率大型多模态模型(LMMs)面临着视觉token过多和二次视觉复杂性的挑战。当前的高分辨率LMMs解决了二次复杂性问题,但仍然生成过多的视觉token。然而,视觉token的冗余是关键问题,因为它导致了更大的计算量。 为了减轻这个问题,作者提出了ConvLLaVA,它采用ConvNeXt这种分层 Backbone 网络作为LMM的视觉编码器,以替代Vision Transformer(ViT)。ConvLLaVA将高分辨率图像压缩成信息丰富的视觉特征,有效防止生成过量的视觉token。为了增强ConvLLaVA的能力,作者提出了两个关键优化。 由于在直接应用于高分辨率时,低分辨率预训练的ConvNeXt表现不佳,作者更新它以弥合这一差距。此外,由于ConvNeXt原始的压缩比对于更高的分辨率输入是不够的,作者训练了一个后续阶段以进一步压缩视觉token,从而减少冗余。 这些优化使得ConvLLaVA能够支持1536×1536分辨率的
………………………………