专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

探索LLM安全漏洞新视角：植入后门的RAG会对大模型推理带来哪些风险？

PaperWeekly · 公众号 · 科研 · 2024-07-14 21:43

文章预览

©PaperWeekly 原创 · 作者 | 程彭洲单位 | 上海交通大学网络空间安全学院研究方向 | 人工智能安全、后门攻击与防御等虽然大型语言模型在理解和生成人类语言方面非常高效，但它们的安全隐患也不容忽视，特别是后门攻击这一点让人们感到担忧。尝试直接攻击这些大模型不仅成本高昂，而且效果往往不持久。因此，本文通过研究这些模型更新知识时的一个关键组件-检索增强生成（RAG），来深入了解潜在的安全风险。我们提出了一种名为 TrojanRAG 的新方法，它能够在常见的攻击情境下悄无声息地操纵模型输出。此外，我们从攻击者和用户的角度量化了 TrojanRAG 对大模型推理带来的风险程度，并尝试评估模型在指令遵循和安全对齐之间的平衡性。通过广泛的实验，我们发现 TrojanRAG 不仅威胁多样，而且能在不影响模型响应正常查询的情况下发挥 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博