专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

《多模态大语言模型视觉提示》综述

专知  · 公众号  ·  · 2024-09-26 12:00

文章预览

多模态大语言模型(MLLMs)为预训练的大语言模型(LLMs)赋予了视觉能力。尽管LLMs中的文本提示已被广泛研究,视觉提示则为更细粒度和自由形式的视觉指令开辟了新天地。 本文首次全面调研了MLLMs中的视觉提示方法,重点讨论视觉提示、提示生成、组合推理和提示学习。我们对现有的视觉提示进行分类,并讨论用于自动标注图像的生成方法 。同时,我们考察了使视觉编码器与基础LLMs更好对齐的视觉提示方法,涉及MLLM的视觉基础、对象引用和组合推理能力。此外,我们总结了改善MLLM对视觉提示的感知和理解的模型训练及上下文学习方法。本文探讨了在MLLMs中开发的视觉提示方法,并展望了这些方法的未来。 引言 多模态大语言模型(MLLMs)增强了预训练的大语言模型(LLMs)以实现视觉能力,从而在复杂的多模态任务上实现视觉理解和推理。然而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览