今天看啥  ›  专栏  ›  xsser的博客

【译文】无穷无尽的"越狱":基于双射学习的强大且与规模无关的攻击方法

xsser的博客  · 公众号  ·  · 2024-08-27 17:39
    

文章预览

作者:海泽实验室 xsser注: 海泽实验室一个美国纽约的初创LLM安全公司,整个公司不到10个。 要是说2023年是奇奇怪怪的各种jailbreak之年(老奶奶说cdkey、dan、leetcode),那么2024年就是正经的越狱之年。 2024海泽也用Dspy之类的思路实现了LLM越狱LLM。在LLM redteam中通用解决越狱问题是一个很重要的能力,之前的dan、leetcode、token注入等手法均有对应的解决方案来处理,基于dspy的通过梯度下降算法实现寻找一个最佳的解是之前海泽实验室的一个亮点。国内很多TOP LLM安全公司也是基于这个策略来实现的,这种方法相对比较稳定可以出结果,且无视当前的安全策略,因为你可以在dspy中添加任何的类似指令训练的方法。 之前的leetcode策略一时大杀四方,基本秒杀了主流的策略。海泽应该是基于这个启发,包括之前的base64,从而产生了这篇文章。 简单的来说,最新 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览