《多模态大语言模型视觉提示》综述

专知 · 公众号 · · 2024-09-26 12:00

文章预览

多模态大语言模型（MLLMs）为预训练的大语言模型（LLMs）赋予了视觉能力。尽管LLMs中的文本提示已被广泛研究，视觉提示则为更细粒度和自由形式的视觉指令开辟了新天地。本文首次全面调研了MLLMs中的视觉提示方法，重点讨论视觉提示、提示生成、组合推理和提示学习。我们对现有的视觉提示进行分类，并讨论用于自动标注图像的生成方法。同时，我们考察了使视觉编码器与基础LLMs更好对齐的视觉提示方法，涉及MLLM的视觉基础、对象引用和组合推理能力。此外，我们总结了改善MLLM对视觉提示的感知和理解的模型训练及上下文学习方法。本文探讨了在MLLMs中开发的视觉提示方法，并展望了这些方法的未来。引言多模态大语言模型（MLLMs）增强了预训练的大语言模型（LLMs）以实现视觉能力，从而在复杂的多模态任务上实现视觉理解和推理。然而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博