专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

人大&港科大揭示大模型重要安全风险漏洞:利用概念激活向量破解大模型的安全对齐|NeurIPS 2024

量子位  · 公众号  · AI  · 2024-11-16 13:11
    

文章预览

人大 & 港科大团队 投稿 量子位 | 公众号 QbitAI 利用概念激活向量破解大模型的安全对齐,揭示LLM重要安全风险漏洞。 来自人大 & 港科大的研究人员提出 安全概念激活向量(SCAV)框架 ,通过精确解读大模型的安全机制来指导攻击。 基于SCAV的攻击方法能够生成嵌入级和提示级的攻击,自动调整扰动参数,并显著提升了攻击成功率和响应质量。 在对七个开源大模型的评估中,基于关键词匹配标准的平均攻击成功率(ASR)为99.14%。同时,研究表明,基于SCAV生成的攻击提示具有跨模型迁移的潜力,可在GPT-4等黑盒API上取得成功。 提出SCAV框架 使用SCAV框架诱导攻击,首先需要训练SCAV分类器。 通过对恶意和安全指令嵌入的降维分析,研究者发现这两类指令在低维空间中呈现明显的分隔。因此,通过在模型的嵌入空间中定义一个“安全”与“恶意”的概念 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览