专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
今天看啥  ›  专栏  ›  爱可可-爱生活

本文提出了一种名为最佳N次尝试(BoN)的简单黑盒越狱攻击算法,-20241206053938

爱可可-爱生活  · 微博  · AI  · 2024-12-06 05:39
    

文章预览

2024-12-06 05:39 本条微博链接 本文提出了一种名为最佳N次尝试(BoN)的简单黑盒越狱攻击算法,它通过对提示进行多种模态的增强并反复采样,成功攻破了多个最先进的AI系统,并展现出幂律缩放特性,揭示了AI系统对输入空间扰动的惊人敏感性以及现有防御机制的不足。 [CL]《Best-of-N Jailbreaking》J Hughes, S Price, A Lyn ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览