【他山之石】一文看完多模态：从视觉表征到多模态大模型

人工智能前沿讲习 · 公众号 · 科技自媒体科技媒体 · 2024-11-01 18:08

主要观点总结

本文介绍了视觉表征和多模态表征的发展历程，特别关注视觉表征和预训练、多模态对齐（或融合）以及多模态预训练的相关技术。详细讨论了卷积神经网络（CNN）和Vision Transformer（VIT）在视觉表征方面的应用，以及多模态大模型的发展。此外，还涉及了视觉与自然语言对齐的方法，以及多模态大模型的未来发展方向。

关键观点总结

关键观点1: 视觉表征的发展

介绍了CNN和VIT在视觉表征方面的应用，以及它们如何用于预训练和多模态对齐。

关键观点2: 多模态对齐与融合

讨论了多模态对齐的方法，包括双塔结构和交互式网络结构，以及预训练在其中的作用。

关键观点3: 多模态预训练

介绍了多模态预训练的方法，包括MAE、BEIT以及基于CLIP和VILT的预训练策略。

关键观点4: 多模态大模型

总结了多模态大模型的发展，包括Flamingo、BLIP-2、LLaVA1.5、Qwen-VL、VILA、Gemini 1.0/1.5和LWM等工作的主要思路和技术要点。

关键观点5: 未来展望

对未来多模态大模型的发展方向进行了畅想，包括长上下文、混合模态、世界模型和多模态生成等。

文章预览

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！一、总览由于是讲“图文多模态”，还是要从“图”和“文”的表征方法讲起，然后讲清楚图文表征的融合方法。对于文本模态的表征发展，我们在《闲话NLP：文本表征的半世今生》( https://zhuanlan.zhihu.com/p/473195206 )一文中有过一轮的梳理，因此本文只要讲两件事情：视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；视觉与自然语言的对齐（Visul Language Alignment）或融合：目的是将 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【#特斯拉高管称电动车无惧寒冷地区#：“依然可以完全替代燃油车”-20241219211000

16 小时前

新浪科技 · 【#喜茶四季度合伙人公开信#：不盲目追求规模鼓励合伙人优化现有-20241219195000

17 小时前

sven_shi · 房地产市场真正稳定的标准还是二手房成交量。-20241216214201

3 天前

心禅道 · 投资#737 美资管机构对加密货币2025年十大预言，加密总市值创新高，山寨币集体复苏，比特币生态具体有哪些，应该如何布局？

4 天前

心禅道 · 投资#737 美资管机构对加密货币2025年十大预言，加密总市值创新高，山寨币集体复苏，比特币生态具体有哪些，应该如何布局？

4 天前

Java知音 · 谈一谈三方接口调用方案设计，非常优雅！

5 天前

Java知音 · 谈一谈三方接口调用方案设计，非常优雅！

5 天前

小白玩转Python · 可疑活动（偷窃）检测 | YOLOv8姿态估计和分类

4 月前

晓鹏的宏观图表 · 【今日图表】停不下来的债务"滚雪球"

2 月前