什么会影响大模型安全？NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系

量子位 · 公众号 · AI · 2024-10-31 14:12

文章预览

USAIL团队投稿量子位 | 公众号 QbitAI 全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学（Guangzhou）USAIL研究团队，从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench 。 JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响，包括攻击者的能力、预算、对抗性后缀长度，以及模型的大小、安全对齐情况、系统提示和模板类型。其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D 2024接收。此外，为了全面解决大语言模型的越狱问题，USAIL团队不仅专注于攻击，还深入探讨了越狱评估这一核心问题。越狱分析JailTrackBench 近年来，随着人工智能的迅速发展，尤其是大语言模型（LLMs）的广泛应用，保障模型的安全性并防止其被恶意利用，已成为一个重要的议题。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博