专栏名称: AIGC Research

AIGC Research｜AI for Creativity Plan (AI4C Plan)｜from ShanghaiTech University｜致力于探索AIGC赋能创意智能｜保持卓越学术品位和极致艺术追求

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

179-B2｜高分辨图像理解及其基准，MLLM评估基准综述，视频语言模型用于长视频处理；耦合图像描述理解与生成，图像描述生成综述

AIGC Research · 公众号 · · 2024-08-29 21:15

文章预览

AIGC Research 主编｜庄才林（Cailin Zhuang）技术支持｜胡耀淇（Yaoqi Hu） Topic: Multi-modal｜MLLM & HR Image, MLLM Evaluation Survey Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models 2024-08-28｜WHU, USYD, Jiangsu U, SYSU, NTU ｜⭐️ http://arxiv.org/abs/2408.15556v1 https://github.com/DreamMr/HR-Bench 概述该研究聚焦于提高多模态大型语言模型（MLLMs）在高分辨率（HR）图像感知方面的能力。尽管现有的MLLMs在视觉-语言理解上取得了重大进展，但它们在复杂、细致的HR图像处理上仍然存在明显的不足。当前的基准测试只支持最高2K的图像分辨率，远低于现代MLLMs可以处理的4K和8K分辨率。为了解决这些问题，研究者们提出了一种名为HR-Bench的新基准，旨在全面评估MLLM在处理HR图像时的表现。同时，他们根据现有问题提出了一个新的无训练 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博