文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|Museum Exhibits Visual Understanding, Long-context Video Understanding Taming CLIP for Fine-grained and Structured Visual Understanding of Museum Exhibits 2024-09-03|Sofia U, ETH Zurich, Google DeepMind|ECCV 2024| 🟡 http://arxiv.org/abs/2409.01690v1 https://github.com/insait-institute/MUZE 概述 本研究旨在适应CLIP模型,以实现 对博物馆展品的细粒度及结构化视觉理解 。CLIP作为一种强大的视觉-文本模型,常用于自然语言描述中的图像理解,但其泛化特性导致在特定应用上的表现不足。因此,我们收集并整理了一个包含超过20万个图像与表格对的数据集,以便建立一个新的基准。我们进一步开发了一种新的方法,通过称为parseNet的Transformer结构,将CLIP的图像嵌入映射到这种表格结构,以实现从输入图像生成对应的表格输出。
………………………………