专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
相关文章推荐
今天看啥  ›  专栏  ›  专知

高效集成大语言模型与视觉感知:从训练范式的视角进行综述

专知  · 公众号  ·  · 2025-02-06 11:00
    

文章预览

视觉-语言模态的集成一直是多模态学习的一个重要研究方向,传统上依赖于视觉-语言预训练模型。然而,随着大语言模型(LLMs)的出现,越来越多的研究开始关注将LLMs与视觉模态相结合。随之而来的是将视觉模态融入LLMs的训练范式的演变。最初,集成模态的方法是通过预训练模态集成器来实现,称为单阶段微调(Single-stage Tuning)。此后,这一方法逐渐分化为两种主要的研究方向:一是专注于性能提升的二阶段微调(Two-stage Tuning),二是优先考虑参数效率的直接适应(Direct Adaptation)。然而,现有的综述主要集中在最新的视觉大语言模型(VLLMs)与二阶段微调方法上,缺乏对训练范式演变及其独特的参数效率考虑的深入理解。 本文对34篇来自顶级会议、期刊和高引用的Arxiv论文中的VLLM进行了分类和综述,重点从训练范式角度讨论在适应过程中的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览