文章预览
报告主题: 千万级多模态指令数据集Infinity MM,驱动开源模型迈向SOTA性能 报告日期: 11 月21日(周四)10:30-11:30 报告要点: 在本次报告中,我将会介绍智源研究院数据研究组在多模态指令数据方面做的一些工作。近年来,视觉语言模型(VLMs)在多模态任务中取得了显著进展,广泛应用于各个领域。作为VLM性能的基础,多模态指令数据至关重要。尽管已有多个开源数据集,但由于规模和质量的限制,基于开源数据训练的VLM模型与闭源模型之间仍存在明显差距。为此,我们推出了大规模多模态指令数据集Infinity-MM,通过收集和优化现有的多模态指令数据集,并经过严格筛选和去重,最终构建了一个超过4000万条数据的高质量数据集。此外,我们提出了一种基于标签体系的合成指令生成方法,通过建立图像类型间的对应关系,利用开源多模态模型进行大
………………………………