文章预览
微软的一个prompt 黑盒对抗的方法 https://github.com/microsoft/promptbench/tree/main 字符级:我们采用了 TextBugger[1]和 DeepWordBug[2],这些工具通过向单词引入拼写错误或误差来操作文本,例如通过添加、删除、重复、替换和排列特定单词的字符。 词级攻击:我们采用了 BertAttack [3] 和 TextFooler [4],这些方法旨在通过替换词汇的同义词或上下文相似词来欺骗模型。 我们采用了 StressTest[5]和 CheckList[6]方法,它们会在提示句末尾添加无关或冗余的句子,旨在分散LLMs的注意力。对于 StressTest 攻击,我们在一个提示句的末尾五次分别追加 and true is true 、 and false is not true 和 and true is true 。对于 CheckList 攻击,我们生成了 个由字母和数字组成的随机序列,每个长度为 ,并将这些随机序列附加到提示句的结尾。 语义层面:我们通过选择 种常见语言(中文、法语、阿拉
………………………………