今天看啥  ›  专栏  ›  看雪学苑

SDC2024 议题回顾 | ExpAttack:大语言模型越狱风险持续追踪框架

看雪学苑  · 公众号  · 互联网安全  · 2024-11-19 17:59

主要观点总结

本文介绍了大语言模型技术和应用的发展及其带来的安全风险,提出ExpAttack框架来持续追踪大语言模型的越狱风险。文章分为四章详细介绍ExpAttack框架的技术细节,包括大模型越狱风险的分类、现有的风险管理难点和解决方案、攻击者视角下的风险管理框架以及ExpAttack框架的经验采集、经验评估和经验利用等。

关键观点总结

关键观点1: 大语言模型技术和应用的发展

介绍大语言模型技术的兴起和其在各个领域的应用,以及带来的安全风险。

关键观点2: 大模型越狱风险的分类

详细解释大模型越狱的危害,包括内容安全、数据安全、造谣等方面,并介绍大模型越狱的原因,如目标竞争和不匹配泛化等。

关键观点3: 现有的风险管理难点和解决方案

分析当前大模型越狱风险管理的难点,如外部环境的变化、企业内部的问题等,并介绍现有的解决方案及其不足。

关键观点4: 攻击者视角下的风险管理框架

借鉴传统安全建设的流程,从攻击者的视角提出大模型攻击者视角下的风险管理框架,包括资产发现、情报收集、风险评估、风险修复等环节。

关键观点5: ExpAttack大语言模型越狱风险持续追踪框架

介绍ExpAttack框架的技术细节,包括经验采集(风险问题转化引擎、论文搜索引擎)、经验评估(MCTS-Evaluator算法)和经验利用等部分,以及该框架在解决大模型安全问题中的应用和展望。


文章预览

“ 大语言模型技术和应用正在迅猛发展。一方面,大模型解放了社会生产力;另一方面,它们也带来了不断增加的内容安全风险。作为一项全新的技术,大语言模型的风险会随着时间逐渐显现。 在传统的安全领域,为了应对快速变化的网络攻击并减少来自未来的风险,Gartner引入了CTEM(持续威胁暴露管理)。借鉴Gartner的思路,我们提出了ExpAttack框架,这是一种“可成长”的系统,能够持续监测和追踪大语言模型的越狱风险,本议题将分享ExpAttack框架相关的技术细节。 ” 一起来回顾下  Knight  在SDC2024上发表的议题演讲: 《ExpAttack:大语言模型越狱风险持续追踪框架》 Knight——京东蓝军白鵺攻防实验室安全研究员 多年实战攻防经验,多次参加全国HW、各省市HW,并参与过深信服src、字节src、GeekCon分享。目前主要研究大语言模型安全以及大语言模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览