通用嵌套越狱提示可轻松骗过大型语言模型

ChaMd5安全团队 · 公众号 · · 2024-07-23 08:00

文章预览

招新小广告CTF组诚招re、crypto、pwn、misc、合约方向的师傅,长期招新IOT+Car+工控+样本分析多个组招人有意向的师傅请联系邮箱 admin@chamd5.org(带上简历和想加入的小组) 前言本篇来自南京大学新型软件技术国家重点实验室和美团联合发表的论文，主旨依然是对LLM的越狱提示攻击，概括为两个方面：提示重写（Prompt Rewriting）和场景嵌套（Scenario Nesting）。在此基础上，作者提出了 ReNeLLM，一个利用 LLM 自身生成有效越狱提示的自动框架。 ReNeLLM ReNeLLM，一个自动生成越狱提示的通用框架。 ReNeLLM 将越狱提示攻击概括为两个方面：提示重写和场景嵌套。前者涉及在不改变初始提示语语义的情况下对其进行一系列改写操作，而后者则为改写后的提示语选择一个场景，并通过嵌套对其进行进一步伪装。值得注意的是整个过程由 LLM 自动完成，无 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

江西宣传 · 全国博物馆十大陈列展览精品推介终评！江西1项入围

3 天前

氧叔本叔 · 34岁世女一又被骂表里不一，她到底是不是真绿茶？

10 月前

化妆品观察品观 · 400+行业大咖齐聚，2024蓝玫奖出炉！

9 月前

阜阳交通广播 · 四川公告：侵权哪吒，欢迎举报！

2 月前

人工智能前沿讲习 · 【他山之石】GAN+强化学习=金融市场的"上帝视角"？深度解析斯坦福团队最新市场均衡模型

1 周前