文章预览
作者:阿秋Rachel 原文:https://zhuanlan.zhihu.com/p/722324120 来源:青稞AI 多模态大模型预训练探究主要指的是在视觉指令微调前的训练阶段,让模型学会理解图像及其视觉概念,在多个模态上进行joint modeling的过程。 本文主要内容来自下列文章,探索了视觉语言预训练阶段如何设计更有利于下游任务。 • VILA: On Pre-training for Visual Language Models [1] • MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [2] • NVLM: Open Frontier-Class Multimodal LLMs [3] VILA 结论 • 好的预训练阶段可以让模型具有 多图推理能力、更强的in-context learning能力、更广泛的世界知识 。 • 预训练时冻结LLMs就可以实现不错的zero-shot能力,但是在in-context learning能力上会有所下降。 • 预训练阶段加入图文交替数据对性能有所提升, 交替这种格式很重要 。 • 在指令微调阶段 加入text-only的指
………………………………