专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

量子位  · 公众号  · AI  · 2024-10-25 12:14

文章预览

Mono-InternVL团队 投稿 量子位 | 公众号 QbitAI 原生多模态大模型性能瓶颈,迎来新突破! 上海AI Lab代季峰老师团队,提出了全新的 原生 多模态大模型 Mono-InternVL 。 与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。 与常见的采用CLIP等结构进行视觉编码的 模块化 多模态大模型不同,Mono-InternVL将视觉感知和多模态理解均集成到大语言模型中。 相比于现有多模态大模型,Mono-InternVL有以下技术亮点: 开源原生多模态架构最优解 :无需额外的视觉编码器,通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径,2B模型多模态能力优于7B参数的现有原生多模态模型,多个指标超越InternVL1.5。 兼具视觉灵活性和部署高效性 :支持高达2M像素输入的动态图像分辨率,在原生多模态架构中感知精度最 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览