文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|VLM|Tree of Attributes Prompt Learning Tree of Attributes Prompt Learning for Vision-Language Models 2024-10-15|Harvard, Mass General Brigham, Microsoft AI for Good Lab | 🟡 http://arxiv.org/abs/2410.11201v1 概述 本研究提出了一种新颖的 “属性树提示学习”(Tree of Attributes Prompt Learning, TAP )方法,旨在优化视觉语言模型(VLMs)在下游任务中的表现。 传统的提示学习方法通常仅通过类别名称来生成学习提示,而未能充分利用类别名称所蕴含的丰富上下文信息 。TAP通过引导大型语言模型(LLMs)生成具有 “概念-属性-描述”结构的属性树,从而提取结构化知识图谱,增强模型对视觉内容的理解 。此外,TAP还引入了专门针对视觉属性的文本和视觉提示,确保模型在处理特定图像时能够有效对齐相关描述。通
………………………………