文章预览
一 前言 世界数字技术院(WDTA)开发和发布了“大语言模型安全测试方法”,这表明相关人员始终致力于推进关键进展,保证人工智能技术的可信和安全使用。大语言模型等人工智能系统逐渐成为社会各个领域中不可或缺的技术,应对安全挑战的综合标准愈发重要。该标准归属于WDTA的AI安全、信任、责任(STR)计划,用于应对大语言模型固有的复杂性,提供严格的评估指标和程序测试应对对抗性攻击的弹性。 本篇标准文档提供的框架用于评估大语言模型(LLM)对对抗性攻击的防御能力。该框架适用于LLM在各种攻击类别中的测试和验证,包括L1随机攻击、L2盲盒攻击、L3黑盒攻击和L4白盒攻击。用于评估攻击有效性的关键指标包括攻击成功率(R)和下降率(D)。本篇文章将对命令劫持和提示屏蔽等多种攻击方法进行说明,全面测试LLM对不同类型对抗
………………………………