专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

什么会影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系

量子位  · 公众号  · AI  · 2024-10-31 14:12
    

文章预览

USAIL团队 投稿 量子位 | 公众号 QbitAI 全新大语言模型越狱攻击基准与评估体系来了。 来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。 提出 攻击分析系统性框架JailTrackBench 。 JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模板类型。 其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D 2024接收。 此外,为了全面解决大语言模型的越狱问题,USAIL团队不仅专注于攻击,还深入探讨了 越狱评估 这一核心问题。 越狱分析JailTrackBench 近年来,随着人工智能的迅速发展,尤其是大语言模型 (LLMs) 的广泛应用,保障模型的安全性并防止其被恶意利用,已成为一个重要的议题。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览