文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|MLLM & HR Image, MLLM Evaluation Survey Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models 2024-08-28|WHU, USYD, Jiangsu U, SYSU, NTU |⭐️ http://arxiv.org/abs/2408.15556v1 https://github.com/DreamMr/HR-Bench 概述 该研究聚焦于提高多模态大型语言模型(MLLMs)在高分辨率(HR)图像感知方面的能力 。尽管现有的MLLMs在视觉-语言理解上取得了重大进展, 但它们在复杂、细致的HR图像处理上仍然存在明显的不足 。当前的基准测试只支持最高2K的图像分辨率,远低于现代MLLMs可以处理的4K和8K分辨率。 为了解决这些问题,研究者们 提出了一种名为HR-Bench的新基准,旨在全面评估MLLM在处理HR图像时的表现 。同时,他们根据现有问题 提出了一个新的无训练
………………………………