文章预览
技术总结专栏 本文将以LLaVA和MiniGPT-4为例介绍多模态大模型数据构造的方式。 数据质量是决定多模态模型性能的关键因素。高质量的数据能够减少噪声干扰,提高模型的学习和预测准确性。同时多模态数据的多样性直接影响模型的泛化能力。一个包含丰富多样数据的集合能够训练出更加健壮的模型,使其能够在不同的应用场景中表现良好。 本文以LLaVA和MiniGPT-4为例,介绍相关多模态数据的构造过程,给大家在训练或者微调自己的多模态模型提供思路。 感兴趣的小伙伴可以读读论文: https://arxiv.org/pdf/2304.10592 https://arxiv.org/pdf/2304.08485 LLava数据构造 LLaVA利用图文对创建了两个数据集:简单的对话数据集(低质量,数据量大,标注成本低),复杂的对话数据集(高质量,数据量小,标注成本高)。 简单的 图文对 对话数据。 首先利用已有的图文对数据集(图
………………………………