专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

DeepMind提出针对MoE的全新攻击方法,揭示模型中的用户提示泄露风险

PaperWeekly  · 公众号  · 科研  · 2024-11-01 19:43

文章预览

1. 引言 Mixture-of-Experts (MoE) 架构在大型语言模型(LLMs)中扮演着越来越重要的角色,尤其是在应对日益增长的计算需求方面。MoE模型通过将每个输入token路由到少量的专家模块,从而提高了计算效率和可扩展性。这种选择性激活的机制使得模型能够在处理输入时仅激活必要的专家,从而在保持性能的同时降低了计算成本。 然而,尽管MoE架构在性能上具有显著优势,但它们也引入了新的安全隐患。Hayes等人(2024)最近提出了一种名为“token dropping”的漏洞,这种现象发生在当某个专家的处理能力被超出时,导致多余的tokens被丢弃或重新路由。攻击者可以利用这一漏洞,通过将自己的数据与受害者的数据放在同一批次中,故意造成目标专家的缓冲区溢出,从而降低受害者模型响应的质量,进而实施拒绝服务(DoS)攻击。 在本文中,作者扩展了这一漏洞 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览