文章预览
夕小瑶科技说 原创 作者 |Richard 近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而,大多数模型仍局限于处理低分辨率图像,这限制了它们在需要详细视觉信息的任务中的表现。针对这一问题, 上海交通大学的研究团队推出了MG-LLaVA(Multi-Granularity LLaVA) ,这是一种 基于多粒度指令调整的创新多模态大语言模型 。MG-LLaVA凭借其出色的性能, 在多个视觉大模型评测榜单中取得了领先成绩 。 MG-LLaVA的核心亮点在于引入了多粒度视觉流,同时处理低分辨率、高分辨率和物体中心的特征。这一设计显著提升了模型的视觉处理能力。具体来说,MG-LLaVA增加了一个高分辨率视觉编码器来捕捉细粒度细节,并通过一个卷积门控融合网络将这些细节与基础视觉特征融合。此外,研究人员还利用离线检测器识别的边界框,引入了物体级特征,进
………………………………