今天看啥  ›  专栏  ›  人工智能前沿讲习

【他山之石】一文看完多模态:从视觉表征到多模态大模型

人工智能前沿讲习  · 公众号  · 科技自媒体 科技媒体  · 2024-11-01 18:08
    

主要观点总结

本文介绍了视觉表征和多模态表征的发展历程,特别关注视觉表征和预训练、多模态对齐(或融合)以及多模态预训练的相关技术。详细讨论了卷积神经网络(CNN)和Vision Transformer(VIT)在视觉表征方面的应用,以及多模态大模型的发展。此外,还涉及了视觉与自然语言对齐的方法,以及多模态大模型的未来发展方向。

关键观点总结

关键观点1: 视觉表征的发展

介绍了CNN和VIT在视觉表征方面的应用,以及它们如何用于预训练和多模态对齐。

关键观点2: 多模态对齐与融合

讨论了多模态对齐的方法,包括双塔结构和交互式网络结构,以及预训练在其中的作用。

关键观点3: 多模态预训练

介绍了多模态预训练的方法,包括MAE、BEIT以及基于CLIP和VILT的预训练策略。

关键观点4: 多模态大模型

总结了多模态大模型的发展,包括Flamingo、BLIP-2、LLaVA1.5、Qwen-VL、VILA、Gemini 1.0/1.5和LWM等工作的主要思路和技术要点。

关键观点5: 未来展望

对未来多模态大模型的发展方向进行了畅想,包括长上下文、混合模态、世界模型和多模态生成等。


文章预览

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注! 一、总览 由于是讲“图文多模态”,还是要从“图”和“文”的表征方法讲起,然后讲清楚图文表征的融合方法。对于文本模态的表征发展,我们在《闲话NLP:文本表征的半世今生》( https://zhuanlan.zhihu.com/p/473195206 )一文中有过一轮的梳理,因此本文只要讲两件事情: 视觉表征 :分为两个部分问题,一是如何合理建模视觉输入特征,二是如何通过预训练手段进行充分学习表征,这两点是基于视觉完成具体算法任务的基础; 视觉与自然语言的对齐(Visul Language Alignment)或融合 :目的是将 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览