高效集成大语言模型与视觉感知：从训练范式的视角进行综述

专知 · 公众号 · · 2025-02-06 11:00

文章预览

视觉-语言模态的集成一直是多模态学习的一个重要研究方向，传统上依赖于视觉-语言预训练模型。然而，随着大语言模型（LLMs）的出现，越来越多的研究开始关注将LLMs与视觉模态相结合。随之而来的是将视觉模态融入LLMs的训练范式的演变。最初，集成模态的方法是通过预训练模态集成器来实现，称为单阶段微调（Single-stage Tuning）。此后，这一方法逐渐分化为两种主要的研究方向：一是专注于性能提升的二阶段微调（Two-stage Tuning），二是优先考虑参数效率的直接适应（Direct Adaptation）。然而，现有的综述主要集中在最新的视觉大语言模型（VLLMs）与二阶段微调方法上，缺乏对训练范式演变及其独特的参数效率考虑的深入理解。本文对34篇来自顶级会议、期刊和高引用的Arxiv论文中的VLLM进行了分类和综述，重点从训练范式角度讨论在适应过程中的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博