人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

量子位 · 公众号 · AI · 2024-11-16 13:11

文章预览

人大 & 港科大团队投稿量子位 | 公众号 QbitAI 利用概念激活向量破解大模型的安全对齐，揭示LLM重要安全风险漏洞。来自人大 & 港科大的研究人员提出安全概念激活向量（SCAV）框架，通过精确解读大模型的安全机制来指导攻击。基于SCAV的攻击方法能够生成嵌入级和提示级的攻击，自动调整扰动参数，并显著提升了攻击成功率和响应质量。在对七个开源大模型的评估中，基于关键词匹配标准的平均攻击成功率（ASR）为99.14%。同时，研究表明，基于SCAV生成的攻击提示具有跨模型迁移的潜力，可在GPT-4等黑盒API上取得成功。提出SCAV框架使用SCAV框架诱导攻击，首先需要训练SCAV分类器。通过对恶意和安全指令嵌入的降维分析，研究者发现这两类指令在低维空间中呈现明显的分隔。因此，通过在模型的嵌入空间中定义一个“安全”与“恶意”的概念 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【CreatiLayout：创意布局到图像生成的框架，通过布局和-20250107181517

22 小时前

爱可可-爱生活 · 历史记录和界面恢复了但响应依然不行～不是被Altman说AGI-20250106164518

昨天

爱可可-爱生活 · [CL]《Do NOT Think That Much for -20250105060014

3 天前

爱可可-爱生活 · 希望新开启的阅读分享之旅能为你带来一些启发和思考～-20250104220120

3 天前

量子位 · 全网都在扒的DeepSeek团队，是清北应届生撑起一片天

4 天前

能源学人 · 东华大学朱美芳院士/徐桂银团队Advanced Functional Materials：可日产万平水系锌电池隔膜材料

6 月前

数据宝 · 刚刚透露！6G，明年6月

1 月前