专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

大模型越狱攻防三部曲:评估、分析与防御

AI TIME 论道  · 公众号  ·  · 2024-10-26 10:00
    

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 概述 近年来,随着大语言模型(LLMs)的广泛应用,如何确保这些模型的安全性和防御其被恶意利用成为一个至关重要的议题。香港科技大学(Guangzhou)USAIL研究团队(团队链接:https://github.com/usail-hkust)致力于探索和解决这一挑战,推出了全新的越狱攻防解决方案——大模型越狱攻防三部曲:评估、分析与防御。该系列研究包含了从越狱攻击评估到深度分析,再到创新防御策略的全方位探索,旨在推动大模型的安全性研究和实践发展。 USAIL团队基于其对越狱攻击与防御机制的深刻理解,依次推出了JAILJUDGE评估基准、JailTrackBench攻击分析系统性框架,以及Continued Adversarial Tuning持续性对抗微调防御策略,通过一整套系统的方法不断提升大语言模型的安全性和鲁棒性。本系列研究不仅为学术界提供 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览