文章预览
©PaperWeekly 原创 · 作者 | 程彭洲 单位 | 上海交通大学网络空间安全学院 研究方向 | 人工智能安全、后门攻击与防御等 虽然大型语言模型在理解和生成人类语言方面非常高效,但它们的安全隐患也不容忽视,特别是后门攻击这一点让人们感到担忧。尝试直接攻击这些大模型不仅成本高昂,而且效果往往不持久。因此,本文通过研究这些模型更新知识时的一个关键组件-检索增强生成(RAG),来深入了解潜在的安全风险。 我们提出了一种名为 TrojanRAG 的新方法,它能够在常见的攻击情境下悄无声息地操纵模型输出。此外,我们从攻击者和用户的角度量化了 TrojanRAG 对大模型推理带来的风险程度,并尝试评估模型在指令遵循和安全对齐之间的平衡性。通过广泛的实验,我们发现 TrojanRAG 不仅威胁多样,而且能在不影响模型响应正常查询的情况下发挥
………………………………