【他山之石】NeurIPS 2024｜人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐

人工智能前沿讲习 · 公众号 · · 2024-11-18 18:00

文章预览

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！利用概念激活向量破解大模型的安全对齐，揭示LLM重要安全风险漏洞。来自人大 & 港科大的研究人员提出安全概念激活向量（SCAV）框架，通过精确解读大模型的安全机制来指导攻击。基于SCAV的攻击方法能够生成嵌入级和提示级的攻击，自动调整扰动参数，并显著提升了攻击成功率和响应质量。在对七个开源大模型的评估中，基于关键词匹配标准的平均攻击成功率（ASR）为99.14%。同时，研究表明，基于SCAV生成的攻击提示具有跨模型迁移的潜力，可在GPT-4等黑盒API上取得成功。提出SCAV ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

【他山之石】NeurIPS 2024｜人大&amp;港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐

文章预览

【他山之石】NeurIPS 2024｜人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐