文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity 尽管视觉-语言监督微调在提升大型视觉语言模型(VLLMs)性能方面表现出有效性,但现有的视觉指令调整数据集存在一些限制:(1)指令注释的质量:尽管现有的VLLMs展现出强大的性能,但它们生成的指令可能仍然存在不准确的问题,例如幻觉现象。(2)指令和图像的多样性:指令类型的范围有限以及图像数据的多样性不足,可能会影响模型生成更多样化且更接近现实世界场景的输出。为了应对这些挑战,研究者构建了一个高质量、多样化的视觉指令调整数据集MMInstruct,该数据集包含了来自24个领域的973K条指令。数据集中包含四种指令类型:判断、多项选择、长视觉问答和短视觉问答。为了构建MMInstruct,研究者提出了一个
………………………………