专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

同济、NUS等提出GalleryGPT，巧妙运用大模型收集绘画图像-艺术分析文本数据

PaperWeekly · 公众号 · 科研 · 2024-08-12 20:38

文章预览

©PaperWeekly 原创 · 作者 | 宾燚单位 | 同济大学、NUS 研究方向 | 视觉与语言动机和背景现有的多模态大模型大多聚焦于视觉信息（图像/视频）理解，特别是日常视觉内容理解。然而，作为人类社会发展和精神生活的重要组成部分，艺术作品（如绘画）分析被视为人类创造力的特有表现，智能分析还鲜有研究。本工作以此为切入点，探究了当前多模态大模型，如 GPT-4V 以及 Gemini，在艺术绘画分析中的表现，并发现现有模型在绘画分析中会受所学习到的先验知识影响，进而生成部分错误的分析，我们将这种现象称为 “LLM-biased Visual Hallucination” 。针对这个问题，我们尝试从收集高质量的艺术绘画分析数据微调现有多模态大模型来增强对艺术绘画特有的视觉特性感知能力，如线条、光影以及构图等方面的感知能力。值得注意的是，本工作巧妙地 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博