文章预览
点击下方卡片,关注 「魔方 AI 空间」 公众号 最近,由 GPT-4V 代表的 多模态大语言模型(MLLM) 已成为新的研究热点,它使用强大的大语言模型(LLMs)作为大脑来执行多模态任务。 MLLM的惊人涌现能力,如基于图像的写作和无需OCR的数学推理,在传统多模态方法中是罕见的,这表明了通往人工智能的潜在路径。 为此,学术界和工业界都努力开发能够甚至超越GPT-4V的多模态大模型,以惊人的速度推动研究的极限。在本文中,旨在追踪和总结 MLLM 的最新进展。 图1:代表性的多模态模型(MLLM)时间线 一、引言 近年来, 大语言模型( LLMs ) 在模型规模上取得了显著进步,这些LLMs通常包括 指令遵循、上下文学习(ICL)和思维链(CoT) 。尽管LLMs在大多数自然语言处理(NLP)任务上展示了令人惊讶的零/少次推理性能,但它们本质上对视觉是“盲”的,
………………………………