【译文】无穷无尽的"越狱"：基于双射学习的强大且与规模无关的攻击方法

xsser的博客 · 公众号 · · 2024-08-27 17:39

文章预览

作者：海泽实验室 xsser注：海泽实验室一个美国纽约的初创LLM安全公司，整个公司不到10个。要是说2023年是奇奇怪怪的各种jailbreak之年(老奶奶说cdkey、dan、leetcode)，那么2024年就是正经的越狱之年。 2024海泽也用Dspy之类的思路实现了LLM越狱LLM。在LLM redteam中通用解决越狱问题是一个很重要的能力，之前的dan、leetcode、token注入等手法均有对应的解决方案来处理，基于dspy的通过梯度下降算法实现寻找一个最佳的解是之前海泽实验室的一个亮点。国内很多TOP LLM安全公司也是基于这个策略来实现的，这种方法相对比较稳定可以出结果，且无视当前的安全策略，因为你可以在dspy中添加任何的类似指令训练的方法。之前的leetcode策略一时大杀四方，基本秒杀了主流的策略。海泽应该是基于这个启发，包括之前的base64，从而产生了这篇文章。简单的来说，最新 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中科院物理所 · 用整个三峡水电站的功率吹出的一阵风能有多强，这座地表最强的风洞有何用？

2 天前

环球物理 · 【物理数学】数学和物理的搞笑差别

3 天前

中科院物理所 · 用静电“检验”真爱？还是静电检测消除器更实在 | 正经玩

4 天前

新浪科技 · 【冰火两重天！#上半年光伏出口持续价减量增#，亚洲成最大出口市场-20240727202500

5 月前

通往offer之路 · 安徽国企 | 合肥产投集团2025届校园招聘正式启动

2 月前

顶端新闻 · 哪吒汽车官网崩了？官方客服回应：系统紧急维护中

2 天前