主要观点总结
本文介绍了视觉表征和多模态表征的发展历程,特别关注视觉表征和预训练、多模态对齐(或融合)以及多模态预训练的相关技术。详细讨论了卷积神经网络(CNN)和Vision Transformer(VIT)在视觉表征方面的应用,以及多模态大模型的发展。此外,还涉及了视觉与自然语言对齐的方法,以及多模态大模型的未来发展方向。
关键观点总结
关键观点1: 视觉表征的发展
介绍了CNN和VIT在视觉表征方面的应用,以及它们如何用于预训练和多模态对齐。
关键观点2: 多模态对齐与融合
讨论了多模态对齐的方法,包括双塔结构和交互式网络结构,以及预训练在其中的作用。
关键观点3: 多模态预训练
介绍了多模态预训练的方法,包括MAE、BEIT以及基于CLIP和VILT的预训练策略。
关键观点4: 多模态大模型
总结了多模态大模型的发展,包括Flamingo、BLIP-2、LLaVA1.5、Qwen-VL、VILA、Gemini 1.0/1.5和LWM等工作的主要思路和技术要点。
关键观点5: 未来展望
对未来多模态大模型的发展方向进行了畅想,包括长上下文、混合模态、世界模型和多模态生成等。
文章预览
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注! 一、总览 由于是讲“图文多模态”,还是要从“图”和“文”的表征方法讲起,然后讲清楚图文表征的融合方法。对于文本模态的表征发展,我们在《闲话NLP:文本表征的半世今生》( https://zhuanlan.zhihu.com/p/473195206 )一文中有过一轮的梳理,因此本文只要讲两件事情: 视觉表征 :分为两个部分问题,一是如何合理建模视觉输入特征,二是如何通过预训练手段进行充分学习表征,这两点是基于视觉完成具体算法任务的基础; 视觉与自然语言的对齐(Visul Language Alignment)或融合 :目的是将
………………………………