专栏名称: AI科技评论
点评学术,服务 AI !
今天看啥  ›  专栏  ›  AI科技评论

揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?

AI科技评论  · 公众号  ·  · 2025-02-21 18:42
    

文章预览

北航等单位提出RACE框架,攻击成功率高达96%,OpenAI、DeepSeek等主流模型均被攻破。 本文一作为博士生应宗浩,现就读于北航复杂关键软件环境全国重点实验室,师从陶大程教授与刘祥龙教授,并由刘艾杉教授共同指导,目前研究兴趣为大模型越狱攻防。他所在的智能安全团队由刘祥龙教授负责,近年在大模型安全评测体系方面进行了系列研究工作,包括对抗攻击、后门投毒、越狱攻击、偏见调控等,发表TPAMI、IJCV、ICML、NeurIPS、USENIX等人工智能、信息安全领域顶级论文100余篇。 大模型(LLMs)的推理能力在各类任务中表现出色,但这也为越狱攻击提供了新的突破口。近日,来自北京航空航天大学、360 AI安全实验室、新加坡国立大学和南洋理工大学的研究团队提出了一种名为RACE(Reasoning-Augmented Conversation)的多轮越狱攻击框架,通过将有害查询转化为良 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览