专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

无害数据也能让大模型产生有害回复?SMU发布越狱攻击新方法

PaperWeekly  · 公众号  · 科研  · 2024-10-14 13:50

文章预览

论文标题: Adversarial Suffixes May Be Features Too! 论文地址: https://arxiv.org/abs/2410.00451 Github链接: https://github.com/suffix-maybe-feature/adver-suffix-maybe-features 在人工智能领域,大型语言模型(LLMs)的安全性一直是研究的重点。这些模型在经过安全对齐后,理论上应当拒绝生成有害内容。然而,一种被称为“越狱(Jailbreak)”的现象揭示了这些模型的脆弱性:即使经过安全训练,某些技巧也能诱使它们生成有害回复。 越狱通常需要有害数据的帮助,比如在对抗性攻击时需要定义想要攻击的有害行为,或者是在有害数据上进行微调,这些方法通常可以轻易地让模型失去安全性能。 这篇工作假设并且验证了:即使是无害的数据集,也可能含有促使模型生成有害回复的特征。并且即使是在 GPT-4o 这种安全性能极好的 LLM 上面在特定的无害数据集上微调也会导致模型的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览