专栏名称: 灵度智能
致力于提供优质的AI服务。
目录
今天看啥  ›  专栏  ›  灵度智能

一文读懂多模态大模型(MLLM)

灵度智能  · 公众号  ·  · 2024-11-26 12:10
    

文章预览

点击下方卡片,关注 「魔方 AI 空间」 公众号 最近,由 GPT-4V 代表的 多模态大语言模型(MLLM) 已成为新的研究热点,它使用强大的大语言模型(LLMs)作为大脑来执行多模态任务。 MLLM的惊人涌现能力,如基于图像的写作和无需OCR的数学推理,在传统多模态方法中是罕见的,这表明了通往人工智能的潜在路径。 为此,学术界和工业界都努力开发能够甚至超越GPT-4V的多模态大模型,以惊人的速度推动研究的极限。在本文中,旨在追踪和总结 MLLM 的最新进展。 图1:代表性的多模态模型(MLLM)时间线 一、引言 近年来, 大语言模型( LLMs ) 在模型规模上取得了显著进步,这些LLMs通常包括 指令遵循、上下文学习(ICL)和思维链(CoT) 。尽管LLMs在大多数自然语言处理(NLP)任务上展示了令人惊讶的零/少次推理性能,但它们本质上对视觉是“盲”的, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览