专栏名称: 看雪学苑

致力于移动与安全研究的开发者社区，看雪学院(kanxue.com)官方微信公众帐号。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

SDC2024 议题回顾 | ExpAttack:大语言模型越狱风险持续追踪框架

看雪学苑 · 公众号 · 互联网安全 · 2024-11-19 17:59

主要观点总结

本文介绍了大语言模型技术和应用的发展及其带来的安全风险，提出ExpAttack框架来持续追踪大语言模型的越狱风险。文章分为四章详细介绍ExpAttack框架的技术细节，包括大模型越狱风险的分类、现有的风险管理难点和解决方案、攻击者视角下的风险管理框架以及ExpAttack框架的经验采集、经验评估和经验利用等。

关键观点总结

关键观点1: 大语言模型技术和应用的发展

介绍大语言模型技术的兴起和其在各个领域的应用，以及带来的安全风险。

关键观点2: 大模型越狱风险的分类

详细解释大模型越狱的危害，包括内容安全、数据安全、造谣等方面，并介绍大模型越狱的原因，如目标竞争和不匹配泛化等。

关键观点3: 现有的风险管理难点和解决方案

分析当前大模型越狱风险管理的难点，如外部环境的变化、企业内部的问题等，并介绍现有的解决方案及其不足。

关键观点4: 攻击者视角下的风险管理框架

借鉴传统安全建设的流程，从攻击者的视角提出大模型攻击者视角下的风险管理框架，包括资产发现、情报收集、风险评估、风险修复等环节。

关键观点5: ExpAttack大语言模型越狱风险持续追踪框架

介绍ExpAttack框架的技术细节，包括经验采集（风险问题转化引擎、论文搜索引擎）、经验评估（MCTS-Evaluator算法）和经验利用等部分，以及该框架在解决大模型安全问题中的应用和展望。

文章预览

“ 大语言模型技术和应用正在迅猛发展。一方面，大模型解放了社会生产力；另一方面，它们也带来了不断增加的内容安全风险。作为一项全新的技术，大语言模型的风险会随着时间逐渐显现。在传统的安全领域，为了应对快速变化的网络攻击并减少来自未来的风险，Gartner引入了CTEM（持续威胁暴露管理）。借鉴Gartner的思路，我们提出了ExpAttack框架，这是一种“可成长”的系统，能够持续监测和追踪大语言模型的越狱风险，本议题将分享ExpAttack框架相关的技术细节。 ” 一起来回顾下 Knight 在SDC2024上发表的议题演讲：《ExpAttack:大语言模型越狱风险持续追踪框架》 Knight——京东蓝军白鵺攻防实验室安全研究员多年实战攻防经验，多次参加全国HW、各省市HW，并参与过深信服src、字节src、GeekCon分享。目前主要研究大语言模型安全以及大语言模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

三亚广播电视台 · 收到这类短信，速删！

14 小时前

三亚广播电视台 · 收到这类短信，速删！

14 小时前

重庆之声 · 提醒 | 年底收到这类短信，别信！

昨天

重庆之声 · 提醒 | 年底收到这类短信，别信！

昨天

法治时报 · “睿少爷”等16名犯罪嫌疑人落网

2 天前

四川观察sctv · 立即停止经营！立案调查！

3 天前

四川观察sctv · 立即停止经营！立案调查！

3 天前

数据何规 · 上海网信发布算法治理专项行动企业自查问题清单

3 天前

数据何规 · 上海网信发布算法治理专项行动企业自查问题清单

3 天前

人间草木-槿 · 你们哪一个能用思虑使身量多加一肘呢？但是百合与飞鸟没有这一忧虑。-20240621083237

6 月前

EngineeringForLife · 《Bioact. Mater.》：脱细胞细胞外基质的悬浮电纺丝-一种保持生物活性的新方法

3 月前

光华CDC · 实习 | 高华证券2025暑期实习生项目招聘正式启动！

2 月前