文章预览
摘要 我们介绍了 NVLM 1.0, 1 一个先锋级多模态大型语言模型(LLM)系列,在视觉语言任务上取得了最先进的结果,与领先的专有模型(如 GPT-4o)和开放访问模型(如 Llama 3-V 405B 和 InternVL 2)相媲美。 值得注意的是,NVLM 1.0 在多模态训练后显示出比其 LLM 主干更好的纯文本性能。 在 模型设计 方面,我们对仅解码器多模态 LLM(如 LLaVA)和基于交叉注意力的模型(如 Flamingo)进行了全面比较。 基于两种方法的优缺点,我们提出了一种新颖的架构,增强了训练效率和多模态推理能力。 此外,我们为基于瓦片的动态高分辨率图像引入了 1-D 瓦片标记设计,这显著提高了多模态推理和 OCR 相关任务的性能。 关于 训练数据 ,我们精心整理并提供了有关多模态预训练和监督微调数据集的详细信息。 我们的发现表明,即使在预训练阶段,跨所有架构,数
………………………………