今天看啥  ›  专栏  ›  知道创宇404实验室

找出披着羊皮的狼:通过文本摘要技术破解对抗性文本到图像提示

知道创宇404实验室  · 公众号  ·  · 2024-12-20 16:11
    

文章预览

作者:Portia Cooper, Harshita Narnoli, Mihai Surdeanu 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/pdf/2412.12212 摘要 参考资料 文本到图像模型常常遭受一种称为“分而治之攻击”(DACA)的逐步攻击,该攻击通过大型语言模型将敏感文本包装在看似无害的叙述中,以隐藏不当内容。为了有效抵御这种逐步DACA攻击,我们提出了一种包含两个阶段的方法:首先是文本摘要,随后进行二元分类。我们构建了一个名为对抗性文本到图像提示(ATTIP)的数据集,包含940个样本,涵盖了经过DACA掩盖和未掩盖的提示。利用ATTIP数据集,我们生成了两个版本的摘要——一个由小型编码器模型生成,另一个由大型语言模型生成。接着,我们运用编码器分类器和GPT-4o分类器对这些经过摘要处理和未经摘要处理的提示进行了内容审核。与仅处理未摘要数据的分类器相比, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览