今天看啥  ›  专栏  ›  AIGC Research

179-B2|高分辨图像理解及其基准,MLLM评估基准综述,视频语言模型用于长视频处理;耦合图像描述理解与生成,图像描述生成综述

AIGC Research  · 公众号  ·  · 2024-08-29 21:15

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|MLLM & HR Image, MLLM Evaluation Survey Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models 2024-08-28|WHU, USYD, Jiangsu U, SYSU, NTU |⭐️ http://arxiv.org/abs/2408.15556v1 https://github.com/DreamMr/HR-Bench 概述 该研究聚焦于提高多模态大型语言模型(MLLMs)在高分辨率(HR)图像感知方面的能力 。尽管现有的MLLMs在视觉-语言理解上取得了重大进展, 但它们在复杂、细致的HR图像处理上仍然存在明显的不足 。当前的基准测试只支持最高2K的图像分辨率,远低于现代MLLMs可以处理的4K和8K分辨率。 为了解决这些问题,研究者们 提出了一种名为HR-Bench的新基准,旨在全面评估MLLM在处理HR图像时的表现 。同时,他们根据现有问题 提出了一个新的无训练 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览