专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能

魔搭ModelScope社区  · 公众号  ·  · 2024-11-09 20:01
    

文章预览

近年来,视觉语言模型(VLM)取得了显著进展,训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前主要的获取数据方式为通过人工对数据进行收集和标注以及利用模型对指令进行合成,业内也有许多工作专注于此。然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。 为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。 · Infinity-MM,包含数千万个样本,数据规模达4300万条,数据量达10TB,通过质量过滤和去重,确保了其数据的高质量和多样性。 · 智源提出了一种基于开源模型和标签体系的合成数据生成方法,能够生成高质量的指令数据并有效地扩大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览