专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

探索LLM安全漏洞新视角:植入后门的RAG会对大模型推理带来哪些风险?

PaperWeekly  · 公众号  · 科研  · 2024-07-14 21:43
    

文章预览

©PaperWeekly 原创 · 作者 |  程彭洲 单位 |  上海交通大学网络空间安全学院 研究方向 |  人工智能安全、后门攻击与防御等 虽然大型语言模型在理解和生成人类语言方面非常高效,但它们的安全隐患也不容忽视,特别是后门攻击这一点让人们感到担忧。尝试直接攻击这些大模型不仅成本高昂,而且效果往往不持久。因此,本文通过研究这些模型更新知识时的一个关键组件-检索增强生成(RAG),来深入了解潜在的安全风险。 我们提出了一种名为 TrojanRAG 的新方法,它能够在常见的攻击情境下悄无声息地操纵模型输出。此外,我们从攻击者和用户的角度量化了 TrojanRAG 对大模型推理带来的风险程度,并尝试评估模型在指令遵循和安全对齐之间的平衡性。通过广泛的实验,我们发现 TrojanRAG 不仅威胁多样,而且能在不影响模型响应正常查询的情况下发挥 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览