文章预览
来源:专知 本文 约1000字 ,建议阅读 5 分钟 大型多模态模型(LMMs)的研究已经成为深度学习领域的重点,展示了其在当代研究中的重要性。LMMs能够处理来自不同模态的数据,通过利用互补信息来执行多种任务,从而提高预测能力。 LMMs的学习过程分为两个关键阶段:计算密集的预训练阶段,旨在从大规模的噪声数据中获取通用表示;以及后续的微调阶段,专注于将预训练模型调整到特定任务上。 传统上,基础LMMs的预训练被认为是拥有丰富计算资源的研究实验室的专属特权。在本论文中,我们提出了一种用于高效预训练基础视觉-语言模型(VLMs)的新方法。这涉及通过专门的预训练过程,利用现成的冻结大型语言模型(LLMs),从而减少对数据的需求。此外,我们引入了一种高效的VLM预训练方法,减少模态投影中的冗余。通过我们的方法,训练LLMs
………………………………