一文读懂多模态大模型（MLLM）

灵度智能 · 公众号 · · 2024-11-26 12:10

文章预览

点击下方卡片，关注「魔方 AI 空间」公众号最近，由 GPT-4V 代表的多模态大语言模型（MLLM）已成为新的研究热点，它使用强大的大语言模型（LLMs）作为大脑来执行多模态任务。 MLLM的惊人涌现能力，如基于图像的写作和无需OCR的数学推理，在传统多模态方法中是罕见的，这表明了通往人工智能的潜在路径。为此，学术界和工业界都努力开发能够甚至超越GPT-4V的多模态大模型，以惊人的速度推动研究的极限。在本文中，旨在追踪和总结 MLLM 的最新进展。图1：代表性的多模态模型（MLLM）时间线一、引言近年来，大语言模型（ LLMs ）在模型规模上取得了显著进步，这些LLMs通常包括指令遵循、上下文学习（ICL）和思维链（CoT）。尽管LLMs在大多数自然语言处理（NLP）任务上展示了令人惊讶的零/少次推理性能，但它们本质上对视觉是“盲”的， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博