文章预览
1. 典型开源多模态大模型 ( 1 ) KOSMOS-2 KOSMOS-2 是微软亚洲研究院在 KOSMOS-1 模型的基础上 开发的多模态大模型。其中, KOSMOS-1 是在大规模多模态数据集上重头训练的,该模型具有类似 GPT-4 的多模态能力,可以感知一般 的感官模态,在上下文中学习(即少样本学习)并能够遵循语音指示 (即零样本学习)。 KOSMOS-2 采用与 KOSMOS-1 相同的模型架构和训练目标对模型进行训练 , 并在此基础上新增了对图像局部区域 的理解能力。 ( 2 ) OpenFlamingo OpenFlamingo 模型是 DeepMind Flamingo 模型的开源复现 版,可实现多模态大模型的训练和评估。 OpenFlamingo 使用交叉注 意力将一个预训练的视觉编码器和一个语言大模型结合在一起。 它是 在大型多模态数据集(例如 Multimodal C4 )上进行训练,可以实现以交错的图像 / 文本为输入来进行文本生成。
………………………………