专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

FightingCV  · 公众号  ·  · 2024-10-26 09:00
    

文章预览

来源 | 量子位 原生 多模态大模型 性能瓶颈,迎来新突破! 上海AI Lab 代季峰 老师团队,提出了全新的 原生 多模态大模型 Mono-InternVL 。 与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。 与常见的采用CLIP等结构进行视觉编码的 模块化 多模态大模型不同,Mono-InternVL将视觉感知和多模态理解均集成到大语言模型中。 相比于现有多模态大模型,Mono-InternVL有以下技术亮点: 开源原生多模态架构最优解 :无需额外的视觉编码器,通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径,2B模型多模态能力优于7B参数的现有原生多模态模型,多个指标超越InternVL1.5。 兼具视觉灵活性和部署高效性 :支持高达2M像素输入的动态图像分辨率,在原生多模态架构中感知精度最高。相比于InternVL1.5,在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览