今天看啥  ›  专栏  ›  灵度智能

一文读懂多模态大模型:LLaVA系列 | 从图像到视频内容理解的进化之路

灵度智能  · 公众号  ·  · 2024-12-04 12:10
    

文章预览

点击下方卡片,关注 「魔方 AI 空间」 公众号 猫先生写本文的契机来自于 《一文读懂多模态大模型(MLLM)》 ,此综述系统性地介绍了MLLM的基本思想、主要方法和当前进展! 猫先生认为有必要找到一个 经典的模型 ,对其 深入浅出地进行技术梳理 ,这样能够让我们能够对图像到视频的内容理解有一个更加深刻的认识,因此, 本篇关于LLaVA系列技术文章就诞生了!! 本文整体脉络将从 LLaVA -> LLaVA1.5 -> LLaVA1.6 -> LLaVA-NeXT(Video) 模型进行展开,分别介绍其各项技术亮点和模型架构,力求对多模态大模型在图像和视频内容理解上的应用进行 深入浅出的解读!! 同时,欢迎大家关注 「魔方AI空间」 ,将发布更多干货文章,敬请期待!!! LLaVA系列相关论文汇总: LLaVA :《Visual Instruction Tuning》 论文链接 :https://arxiv.org/pdf/2304.08485 LLaVA 1.5 :《Improved Baseli ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览