专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

NeurIPS 2024 | 利用概念激活向量破解大模型的安全对齐，人大&港科大揭示LLM重要安全风险漏洞

PaperWeekly · 公众号 · 科研 · 2024-11-19 12:39

主要观点总结

本文介绍了基于安全概念激活向量（SCAV）的框架在揭示大语言模型安全漏洞方面的应用。通过对模型的嵌入空间进行定义，SCAV框架能够在嵌入层和提示层引导攻击，显著提升攻击成功率和攻击迁移性。实验表明，SCAV方法比现有方法更有效，并指出了大模型安全机制的薄弱点。

关键观点总结

关键观点1: 介绍SCAV框架的基本原理和应用背景

SCAV框架通过精确解读大模型的安全机制来指导攻击，能够生成嵌入级和提示级的攻击，自动调整扰动参数，并显著提升攻击成功率和响应质量。

关键观点2: SCAV框架的攻击效果评估

在七个开源大模型的评估中，基于关键词匹配标准的平均攻击成功率（ASR）为99.14%，研究表明基于SCAV生成的攻击提示具有跨模型迁移的潜力。

关键观点3: 对大模型安全机制的见解

研究者提出了关于大模型安全机制的三个见解，包括现有防御方法无法完全消除SCAV所揭示的安全漏洞，大模型的安全机制可能与嵌入空间的线性可分性有关，以及不同白盒大模型的安全机制可能存在共性。

文章预览

随着大语言模型能力的快速提升，其潜在的安全隐患愈发显著。尽管开发者进行了大量安全对齐工作，以避免模型被用于恶意用途，然而现有的安全对齐方式仍易被多种攻击方式逆转，显示了安全对齐技术的弱点。然而，当前攻击方法大多基于对模型有限的理解，难以有效规避误导性的启发式策略。为此，人大和港科大的研究者提出了一种基于安全概念激活向量（SCAV）的框架，通过精确解读大模型的安全机制来指导攻击。基于 SCAV 的攻击方法能够生成嵌入级和提示级的攻击，自动调整扰动参数，并显著提升了攻击成功率和响应质量。在对七个开源大模型的评估中，基于关键词匹配标准的平均攻击成功率（ASR）为 99.14%。同时，研究表明，基于 SCAV 生成的攻击提示具有跨模型迁移的潜力，可在 GPT-4 等黑盒 API 上取得成功。论文题目： Uncovering Safety ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博