Infinity-MM：利用大规模高质量指令数据扩展多模态性能

FightingCV · 公众号 · · 2024-11-01 09:00

文章预览

摘要近年来，视觉语言模型（VLMs）取得了重大进展，但开源指令数据的规模和质量有限，阻碍了它们与闭源模型相比的性能。在这项工作中，我们通过引入 Infinity-MM 来解决这一限制，这是一个包含 4000 万个样本的大规模多模态指令数据集，通过严格的质量过滤和去重进行增强。我们还提出了一种基于开源 VLMs 的合成指令生成方法，使用详细的图像标注和多样化的问句生成。利用这些数据，我们训练了一个 20 亿参数的 VLM， Aquila-VL-2B ，在同等规模的模型中实现了最先进的（SOTA）性能。这表明扩展指令数据和生成合成数据可以显著提高开源模型的性能。 1 引言最近，视觉语言模型（VLMs） Li 等人（2023）；Liu 等人（2024b）；Dai 等人（2023）；Zhu 等人（2024）；Bai 等人（2023b）；Wang 等人（2023b）；Xiao 等人（2024）；OpenAI（2024）；Yao 等人（20 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博