文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|VLMs Art History, MLLMs Chart Understanding Have Large Vision-Language Models Mastered Art History? 2024-09-05|KU Leuven, TU Delft | ⭐️ http://arxiv.org/abs/2409.03521v1 https://github.com/ombretta/VLMs-vs-ArtHistory 概述 本研究旨在探讨大型视觉-语言模型(Vision-Language Models, VLMs)对艺术历史,尤其是艺术风格分类的掌握程度 。现有的VLMs在图像分类方面已经达到了一定的基准,但它们在艺术作品, 尤其是绘画的艺术风格、作者和时期的分类任务中的表现还未得到充分研究。 由于艺术作品的独特复杂性,艺术历史的分类任务通常要求对作品的多种特征进行深入理解。研究考虑了四种不同的VLMs,即CLIP, LLaVA, OpenFlamingo和GPT-4o,分析它们在没有专门训练的情况下在艺术风格、作者和时间段预测中的零-shot性能,
………………………………