专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

183-B2|博物馆展品的细粒度及结构化视觉理解,长上下文视频理解;动态引导对抗蒸馏;fMRI大脑视觉解码的隐私保护|Wed

AIGC Research  · 公众号  ·  · 2024-09-05 07:00

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|Museum Exhibits Visual Understanding, Long-context Video Understanding Taming CLIP for Fine-grained and Structured Visual Understanding of Museum Exhibits 2024-09-03|Sofia U, ETH Zurich, Google DeepMind|ECCV 2024| 🟡 http://arxiv.org/abs/2409.01690v1 https://github.com/insait-institute/MUZE 概述 本研究旨在适应CLIP模型,以实现 对博物馆展品的细粒度及结构化视觉理解 。CLIP作为一种强大的视觉-文本模型,常用于自然语言描述中的图像理解,但其泛化特性导致在特定应用上的表现不足。因此,我们收集并整理了一个包含超过20万个图像与表格对的数据集,以便建立一个新的基准。我们进一步开发了一种新的方法,通过称为parseNet的Transformer结构,将CLIP的图像嵌入映射到这种表格结构,以实现从输入图像生成对应的表格输出。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览