找出披着羊皮的狼：通过文本摘要技术破解对抗性文本到图像提示

知道创宇404实验室 · 公众号 · · 2024-12-20 16:11

文章预览

作者：Portia Cooper, Harshita Narnoli, Mihai Surdeanu 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/pdf/2412.12212 摘要参考资料文本到图像模型常常遭受一种称为“分而治之攻击”（DACA）的逐步攻击，该攻击通过大型语言模型将敏感文本包装在看似无害的叙述中，以隐藏不当内容。为了有效抵御这种逐步DACA攻击，我们提出了一种包含两个阶段的方法：首先是文本摘要，随后进行二元分类。我们构建了一个名为对抗性文本到图像提示（ATTIP）的数据集，包含940个样本，涵盖了经过DACA掩盖和未掩盖的提示。利用ATTIP数据集，我们生成了两个版本的摘要——一个由小型编码器模型生成，另一个由大型语言模型生成。接着，我们运用编码器分类器和GPT-4o分类器对这些经过摘要处理和未经摘要处理的提示进行了内容审核。与仅处理未摘要数据的分类器相比， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博