文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Image Generation|T2I Safety|NSFW RT-Attack: Jailbreaking Text-to-Image Models via Random Token 2024-08-25|NKU, NTU, Alibaba Group, Oxford , A*STAR|⭐️ http://arxiv.org/abs/2408.13896v1 概述 本文介绍了一种新颖的黑盒攻击方法,称为RT-Attack,旨在破解文本到图像(T2I)模型,具体是为了绕过针对不安全内容(NSFW)的防御机制 。随着T2I模型在图像生成和编辑方面的成功,这些技术在生成潜在危险内容方面带来了严重的安全隐患。大多数现有的攻击方法视T2I模型为“白盒”系统,利用梯度信息进行对抗性提示优化,但在实际场景中,攻击者往往无法访问模型的梯度。因此,本文提出了一种两阶段的随机搜索算法,利用随机令牌生成对抗性提示,不需要模型的梯度,从而增强攻击的有效性和隐蔽性。通过实验证
………………………………