专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习与NLP

2024 SOTA多模态大模型架构设计的最佳实践

深度学习与NLP  · 公众号  ·  · 2024-07-04 08:00
    

文章预览

作者:Dreamweaver,SJTU × AIGC/LLM,腾讯公司 · 多模态应用研究 (实习) 声明:本文只做分享,版权归原作者,侵权私信删除! 原文:https://zhuanlan.zhihu.com/p/706145455 我们会发现,最新流行的MLLM架构大多采用类LLaVA的ViT+MLP+LLM范式。 得益于LLaVA的精简设计、数据和训练高效性、更强的baseline性能,LLaVA架构建立起了良好的应用生态。 国内也涌现出了高质量的MLLM,InternVL拉近了开源模型与GPT-4V的差距,具备4K高分辨率处理能力,而MiniCPM-V实现了高效端侧部署,让小模型也能抗衡顶尖的闭源模型。 最新的Cambrian-1则是鼓励研究者跳出当前MLLM的思维定式,不断探索视觉表征更多的可能性。 通往AGI有多条路径,而原生的多模态大模型则是必经之路。 本文重点介绍LLaVA-NeXT、InternVL、MiniCPM-V系列,以及以视觉为中心的Cambrian-1,简单介绍VILA1.5和CogVLM2 。截止2024.06,持续 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览