今天看啥  ›  专栏  ›  人工智能前沿讲习

【他山之石】NeurIPS 2024|人大&港科大揭示大模型重要安全风险漏洞:利用概念激活向量破解大模型的安全对齐

人工智能前沿讲习  · 公众号  ·  · 2024-11-18 18:00
    

文章预览

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注! 利用概念激活向量破解大模型的安全对齐,揭示LLM重要安全风险漏洞。 来自人大 & 港科大的研究人员提出 安全概念激活向量(SCAV)框架 ,通过精确解读大模型的安全机制来指导攻击。 基于SCAV的攻击方法能够生成嵌入级和提示级的攻击,自动调整扰动参数,并显著提升了攻击成功率和响应质量。 在对七个开源大模型的评估中,基于关键词匹配标准的平均攻击成功率(ASR)为99.14%。同时,研究表明,基于SCAV生成的攻击提示具有跨模型迁移的潜力,可在GPT-4等黑盒API上取得成功。 提出SCAV ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览