一文读懂多模态大模型：LLaVA系列 | 从图像到视频内容理解的进化之路

灵度智能 · 公众号 · · 2024-12-04 12:10

文章预览

点击下方卡片，关注「魔方 AI 空间」公众号猫先生写本文的契机来自于《一文读懂多模态大模型（MLLM）》，此综述系统性地介绍了MLLM的基本思想、主要方法和当前进展！猫先生认为有必要找到一个经典的模型，对其深入浅出地进行技术梳理，这样能够让我们能够对图像到视频的内容理解有一个更加深刻的认识，因此，本篇关于LLaVA系列技术文章就诞生了！！本文整体脉络将从 LLaVA -> LLaVA1.5 -> LLaVA1.6 -> LLaVA-NeXT(Video) 模型进行展开，分别介绍其各项技术亮点和模型架构，力求对多模态大模型在图像和视频内容理解上的应用进行深入浅出的解读！！同时，欢迎大家关注「魔方AI空间」，将发布更多干货文章，敬请期待！！！ LLaVA系列相关论文汇总： LLaVA ：《Visual Instruction Tuning》论文链接：https://arxiv.org/pdf/2304.08485 LLaVA 1.5 ：《Improved Baseli ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

深度学术搜索 · 35元不限字数，英文查重上新啦！速速体验

13 小时前

深度学术搜索 · 35元不限字数，英文查重上新啦！速速体验

13 小时前

教师E家 · 59元一套“羊绒供暖衣”，37℃锁温越穿越暖，零下15℃都不怕冷！

昨天

教师E家 · 59元一套“羊绒供暖衣”，37℃锁温越穿越暖，零下15℃都不怕冷！

昨天

FDA食安云 · 【案例】销售的气泡水虚假宣称"纯天然"被罚款

昨天

FDA食安云 · 【案例】销售的气泡水虚假宣称"纯天然"被罚款

昨天

谷哥大叔 · 年底之前最后一期线下课

3 天前

悦长沙 · 长沙这些大型医院正在建设中！

3 月前