开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

量子位 · 公众号 · AI · 2024-10-25 12:14

文章预览

Mono-InternVL团队投稿量子位 | 公众号 QbitAI 原生多模态大模型性能瓶颈，迎来新突破！上海AI Lab代季峰老师团队，提出了全新的原生多模态大模型 Mono-InternVL 。与非原生模型相比，该模型首个单词延迟最多降低67%，在多个评测数据集上均达到了SOTA水准。与常见的采用CLIP等结构进行视觉编码的模块化多模态大模型不同，Mono-InternVL将视觉感知和多模态理解均集成到大语言模型中。相比于现有多模态大模型，Mono-InternVL有以下技术亮点：开源原生多模态架构最优解：无需额外的视觉编码器，通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径，2B模型多模态能力优于7B参数的现有原生多模态模型，多个指标超越InternVL1.5。兼具视觉灵活性和部署高效性：支持高达2M像素输入的动态图像分辨率，在原生多模态架构中感知精度最 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · [LG]《GeomCLIP: Contrastive Geome-20241125061133

昨天

爱可可-爱生活 · 【LTX-Video：一款基于DiT的实时视频生成模型，可在实时-20241123155404

3 天前

宝玉xp · v0 提示词解析说明今天破解了 v0 的提示词网页链接，并且-20241123115707

3 天前

爱可可-爱生活 · 【DarkFlare：一个隐蔽的TCP-over-CDN隧道工具-20241122201447

3 天前

字节跳动技术团队 · 无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

5 天前

字节跳动技术团队 · 无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

5 天前

顶峰动态 · 重磅！“华为鸿蒙”引领国产替代新风尚，三朵金花一触即发，未来有望暴涨1000%！

1 月前