上交发布MG-LLaVA，基于多粒度指令调整，横扫视觉大模型榜单

夕小瑶科技说 · 公众号 · · 2024-07-10 20:14

文章预览

夕小瑶科技说原创作者 |Richard 近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而，大多数模型仍局限于处理低分辨率图像，这限制了它们在需要详细视觉信息的任务中的表现。针对这一问题，上海交通大学的研究团队推出了MG-LLaVA（Multi-Granularity LLaVA），这是一种基于多粒度指令调整的创新多模态大语言模型。MG-LLaVA凭借其出色的性能，在多个视觉大模型评测榜单中取得了领先成绩。 MG-LLaVA的核心亮点在于引入了多粒度视觉流，同时处理低分辨率、高分辨率和物体中心的特征。这一设计显著提升了模型的视觉处理能力。具体来说，MG-LLaVA增加了一个高分辨率视觉编码器来捕捉细粒度细节，并通过一个卷积门控融合网络将这些细节与基础视觉特征融合。此外，研究人员还利用离线检测器识别的边界框，引入了物体级特征，进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博