专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

一文看完多模态:从视觉表征到多模态大模型

极市平台  · 公众号  · 算法 科技媒体  · 2024-10-30 22:00

主要观点总结

本文系统梳理了多模态以及多模态大模型的技术发展,从视觉表征和多模态表征的演变到多模态大模型技术的相关工作,并介绍了视觉表征的预训练、多模态对齐与融合、多模态大模型等关键内容。文章通过多个经典案例,包括Flamingo、BLIP-2、InstructBLIP、Qwen-VL、LLaVA1.5、VILA、Gemini 1.0和1.5、LWM等,展示了多模态大模型技术的最新进展和趋势。同时,作者也探讨了未来多模态大模型的发展方向,并分享了个人对多模态大模型技术的理解和实践。

关键观点总结

关键观点1: 多模态与多模态大模型的技术发展

文章系统梳理了多模态和多模态大模型的技术演变,介绍了视觉表征的预训练、多模态对齐与融合、多模态大模型等关键技术。

关键观点2: 经典案例介绍

通过多个经典案例,如Flamingo、BLIP-2、InstructBLIP、Qwen-VL、LLaVA1.5、VILA、Gemini 1.0和1.5、LWM等,展示了多模态大模型技术的最新进展和趋势。

关键观点3: 未来展望

作者探讨了未来多模态大模型的发展方向,并分享了个人对多模态大模型技术的理解和实践。


文章预览

↑ 点击 蓝字  关注极市平台 作者丨 菜人卷@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/684472814 编辑丨极市平台 本文经过作者授权,未经允许不得二次转载。 极市导读   多模态以及多模态大模型的系统梳理以及技术发展思路探讨。  >> 加入极市CV技术交流群,走在计算机视觉的最前沿 转眼2024,距离上次知乎写作就快过去一年,上一次的计划主题还是“开源大模型”(参见《ChatGPT的朋友们:大语言模型经典论文一次读到吐》( https://zhuanlan.zhihu.com/p/620360553 )),无奈这个方向变化太快,而且也不乏优质总结文章,也就一直没有动笔。正好最近做图文多模态大模型相关的工作,在查阅资料的过程中没遇到比较完整的脉络梳理文章,往往需要综合参考;反观这个方向的综述型论文又过于追求“完美”,个人感觉详略把控不尽人意。 因此,借此机会结 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览