专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

为什么视觉嵌入语言模型在图像分类上表现差?

专知  · 公众号  ·  · 2024-12-01 11:00
    

文章预览

图像分类是机器视觉智能最基本的能力之一。在本研究中,我们重新审视了使用视觉嵌入语言模型(VLMs),如GPT-4V和LLaVA,进行图像分类的任务。我们发现,尽管现有的专有和公开VLMs通常使用CLIP作为视觉编码器,并且拥有更多的参数,但在标准图像分类基准(如ImageNet)上的表现显著低于CLIP。为了理解原因,我们探索了几个关于VLM推理算法、训练目标和数据处理的假设。 我们的分析表明,主要原因与数据相关:图像分类所需的关键信息被编码在VLM的潜在空间中,但只有在足够的训练数据下才能有效解码。具体而言,VLM训练和指令微调过程中类曝光频率与VLM在这些类别上的表现存在强相关性;当VLM在充分的数据上训练时,其分类精度可以与最先进的分类模型相媲美。 基于这些发现,我们通过将专注于分类的数据集整合到VLM的训练中来增强模型,并 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览