专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

专知  · 公众号  ·  · 2024-10-24 12:00
    

文章预览

预训练的视觉-语言模型(如CLIP)已经成功适应了多种下游任务。然而,它们的性能很大程度上依赖于输入文本提示的具体性,这需要精心设计提示模板。当前的提示优化方法通常通过梯度下降来学习提示,将提示视为可调参数。然而,这些方法容易导致在训练时看到的基础类别上的过拟合,并且生成的提示通常不再为人类所理解。 本文提出了一种简单但可解释的提示优化器(IPO),它利用大型语言模型(LLM)动态生成文本提示。我们引入了一个提示优化提示(Prompt Optimization Prompt),它不仅引导LLM创建有效的提示,还存储了过去提示及其性能指标,提供了丰富的上下文信息。此外,我们结合了一个大型多模态模型(LMM),通过生成图像描述,基于视觉内容进行调整,增强了文本和视觉模态之间的交互。这样可以为数据集创建特定的提示,既提高 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览