LLM jailbreak的对抗

xsser的博客 · 公众号 · · 2024-07-02 21:41

文章预览

微软的一个prompt 黑盒对抗的方法 https://github.com/microsoft/promptbench/tree/main 字符级：我们采用了 TextBugger[1]和 DeepWordBug[2]，这些工具通过向单词引入拼写错误或误差来操作文本，例如通过添加、删除、重复、替换和排列特定单词的字符。词级攻击：我们采用了 BertAttack [3] 和 TextFooler [4]，这些方法旨在通过替换词汇的同义词或上下文相似词来欺骗模型。我们采用了 StressTest[5]和 CheckList[6]方法，它们会在提示句末尾添加无关或冗余的句子，旨在分散LLMs的注意力。对于 StressTest 攻击，我们在一个提示句的末尾五次分别追加 and true is true 、 and false is not true 和 and true is true 。对于 CheckList 攻击，我们生成了个由字母和数字组成的随机序列，每个长度为，并将这些随机序列附加到提示句的结尾。语义层面：我们通过选择种常见语言（中文、法语、阿拉 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博