文章预览
摘要 近年来,视觉语言模型(VLMs)取得了重大进展,但开源指令数据的规模和质量有限,阻碍了它们与闭源模型相比的性能。 在这项工作中,我们通过引入 Infinity-MM 来解决这一限制,这是一个包含 4000 万个样本的大规模多模态指令数据集,通过严格的质量过滤和去重进行增强。 我们还提出了一种基于开源 VLMs 的合成指令生成方法,使用详细的图像标注和多样化的问句生成。 利用这些数据,我们训练了一个 20 亿参数的 VLM, Aquila-VL-2B ,在同等规模的模型中实现了最先进的(SOTA)性能。 这表明扩展指令数据和生成合成数据可以显著提高开源模型的性能。 1 引言 最近,视觉语言模型(VLMs) Li 等人(2023);Liu 等人(2024b);Dai 等人(2023);Zhu 等人(2024);Bai 等人(2023b);Wang 等人(2023b);Xiao 等人(2024);OpenAI(2024);Yao 等人(20
………………………………