专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型越狱攻防三部曲：评估、分析与防御

AI TIME 论道 · 公众号 · · 2024-10-26 10:00

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！概述近年来，随着大语言模型（LLMs）的广泛应用，如何确保这些模型的安全性和防御其被恶意利用成为一个至关重要的议题。香港科技大学（Guangzhou）USAIL研究团队（团队链接：https://github.com/usail-hkust）致力于探索和解决这一挑战，推出了全新的越狱攻防解决方案——大模型越狱攻防三部曲：评估、分析与防御。该系列研究包含了从越狱攻击评估到深度分析，再到创新防御策略的全方位探索，旨在推动大模型的安全性研究和实践发展。 USAIL团队基于其对越狱攻击与防御机制的深刻理解，依次推出了JAILJUDGE评估基准、JailTrackBench攻击分析系统性框架，以及Continued Adversarial Tuning持续性对抗微调防御策略，通过一整套系统的方法不断提升大语言模型的安全性和鲁棒性。本系列研究不仅为学术界提供 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

艾儿天空 · 《石破天穿越令狐冲》《社畜逆袭》万订，《盖世双谐》第八卷结束，全球高武动画开播

12 小时前

艾儿天空 · 起点诸神之战神作提名活动开启：前十辰东独占七席，遮天领跑中

2 天前

艾儿天空 · 千里送一血《星界蚁族》完结，叨狼、背着家的蜗牛新书上线，中世纪的兔子等作者切书了

3 天前

艾儿天空 · 一年两个月285万字，黑山老鬼民俗悬疑小说《黄昏分界》正文完结了

4 天前

艾儿天空 · 起点年度神作评选活动开启预热，蚕室废人《北唐》断更十二年后更新

4 天前

锂电江湖 · 【JH-7178】豪鹏科技：消费电池多元化布局，厚积薄发展新篇

5 月前

工业水处理 · 50万吨/日！国内首个完全采用AOA工艺污水项目一阶段通水调试

4 月前

新浪财经 · 昨夜，A股纪录刷新！

1 月前