专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉大模型榜单

夕小瑶科技说  · 公众号  ·  · 2024-07-10 20:14

文章预览

夕小瑶科技说 原创 作者 |Richard 近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而,大多数模型仍局限于处理低分辨率图像,这限制了它们在需要详细视觉信息的任务中的表现。针对这一问题, 上海交通大学的研究团队推出了MG-LLaVA(Multi-Granularity LLaVA) ,这是一种 基于多粒度指令调整的创新多模态大语言模型 。MG-LLaVA凭借其出色的性能, 在多个视觉大模型评测榜单中取得了领先成绩 。 MG-LLaVA的核心亮点在于引入了多粒度视觉流,同时处理低分辨率、高分辨率和物体中心的特征。这一设计显著提升了模型的视觉处理能力。具体来说,MG-LLaVA增加了一个高分辨率视觉编码器来捕捉细粒度细节,并通过一个卷积门控融合网络将这些细节与基础视觉特征融合。此外,研究人员还利用离线检测器识别的边界框,引入了物体级特征,进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览