主要观点总结
本文介绍了大语言模型技术和应用的发展及其带来的安全风险,提出ExpAttack框架来持续追踪大语言模型的越狱风险。文章分为四章详细介绍ExpAttack框架的技术细节,包括大模型越狱风险的分类、现有的风险管理难点和解决方案、攻击者视角下的风险管理框架以及ExpAttack框架的经验采集、经验评估和经验利用等。
关键观点总结
关键观点1: 大语言模型技术和应用的发展
介绍大语言模型技术的兴起和其在各个领域的应用,以及带来的安全风险。
关键观点2: 大模型越狱风险的分类
详细解释大模型越狱的危害,包括内容安全、数据安全、造谣等方面,并介绍大模型越狱的原因,如目标竞争和不匹配泛化等。
关键观点3: 现有的风险管理难点和解决方案
分析当前大模型越狱风险管理的难点,如外部环境的变化、企业内部的问题等,并介绍现有的解决方案及其不足。
关键观点4: 攻击者视角下的风险管理框架
借鉴传统安全建设的流程,从攻击者的视角提出大模型攻击者视角下的风险管理框架,包括资产发现、情报收集、风险评估、风险修复等环节。
关键观点5: ExpAttack大语言模型越狱风险持续追踪框架
介绍ExpAttack框架的技术细节,包括经验采集(风险问题转化引擎、论文搜索引擎)、经验评估(MCTS-Evaluator算法)和经验利用等部分,以及该框架在解决大模型安全问题中的应用和展望。
文章预览
“ 大语言模型技术和应用正在迅猛发展。一方面,大模型解放了社会生产力;另一方面,它们也带来了不断增加的内容安全风险。作为一项全新的技术,大语言模型的风险会随着时间逐渐显现。 在传统的安全领域,为了应对快速变化的网络攻击并减少来自未来的风险,Gartner引入了CTEM(持续威胁暴露管理)。借鉴Gartner的思路,我们提出了ExpAttack框架,这是一种“可成长”的系统,能够持续监测和追踪大语言模型的越狱风险,本议题将分享ExpAttack框架相关的技术细节。 ” 一起来回顾下 Knight 在SDC2024上发表的议题演讲: 《ExpAttack:大语言模型越狱风险持续追踪框架》 Knight——京东蓝军白鵺攻防实验室安全研究员 多年实战攻防经验,多次参加全国HW、各省市HW,并参与过深信服src、字节src、GeekCon分享。目前主要研究大语言模型安全以及大语言模型
………………………………