SOTA多模态大模型架构设计的最佳实践

吃果冻不吐果冻皮 · 公众号 · · 2024-07-15 08:00

文章预览

【点击】加入大模型技术交流群本文是《多模态视觉-语言大模型的架构演进》的续篇，聚焦2024年以来学术界和产业界的SOTA多模态大模型 (Multimodal Large Language Models, MLLM)，分享架构设计中的深刻见解与最佳实践。我们会发现，最新流行的MLLM架构大多采用类LLaVA的ViT+MLP+LLM范式。得益于LLaVA的精简设计、数据和训练高效性、更强的baseline性能，LLaVA架构建立起了良好的应用生态。国内也涌现出了高质量的MLLM，InternVL拉近了开源模型与GPT-4V的差距，具备4K高分辨率处理能力，而MiniCPM-V实现了高效端侧部署，让小模型也能抗衡顶尖的闭源模型。最新的Cambrian-1则是鼓励研究者跳出当前MLLM的思维定式，不断探索视觉表征更多的可能性。通往AGI有多条路径，而原生的多模态大模型则是必经之路。本文重点介绍LLaVA-NeXT、InternVL、MiniCPM-V系列，以及以视觉为中 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博