专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Infinity-MM:利用大规模高质量指令数据扩展多模态性能

FightingCV  · 公众号  ·  · 2024-11-01 09:00

文章预览

摘要 近年来,视觉语言模型(VLMs)取得了重大进展,但开源指令数据的规模和质量有限,阻碍了它们与闭源模型相比的性能。  在这项工作中,我们通过引入  Infinity-MM  来解决这一限制,这是一个包含 4000 万个样本的大规模多模态指令数据集,通过严格的质量过滤和去重进行增强。  我们还提出了一种基于开源 VLMs 的合成指令生成方法,使用详细的图像标注和多样化的问句生成。  利用这些数据,我们训练了一个 20 亿参数的 VLM, Aquila-VL-2B ,在同等规模的模型中实现了最先进的(SOTA)性能。  这表明扩展指令数据和生成合成数据可以显著提高开源模型的性能。 1 引言 最近,视觉语言模型(VLMs) Li 等人(2023);Liu 等人(2024b);Dai 等人(2023);Zhu 等人(2024);Bai 等人(2023b);Wang 等人(2023b);Xiao 等人(2024);OpenAI(2024);Yao 等人(20 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览