文章预览
摘要 视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。 然而,大多数现有的预训练模型只擅长理解型任务或生成型任务。 此外,性能提升主要通过扩大从网络收集的带有噪声的图像文本对数据集来实现,这是一种次优的监督来源。 在本文中,我们提出了 BLIP,一个新的 VLP 框架,可以灵活地迁移到视觉语言理解和生成任务。 BLIP 通过对标题进行自举来有效地利用噪声网络数据,其中标题生成器生成合成标题,过滤器删除噪声标题。 我们在广泛的视觉语言任务上取得了最先进的结果,例如图像文本检索(平均召回率@1 提高了 2.7%),图像字幕(CIDEr 提高了 2.8%),以及 VQA(VQA 得分提高了 1.6%)。 BLIP 在以零样本方式直接迁移到视频语言任务时也表现出强大的泛化能力。 代码、模型和数据集已发布。 视觉语言 https://github.com/salesforce/BLIP 1
………………………………