一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

新突破!xJailbreak:用强化学习「越狱」大模型,可解释性黑盒攻击来了

深度学习自然语言处理  · 公众号  ·  · 2025-02-04 16:33
    

文章预览

来自原作者团队投稿 编辑:深度学习自然语言处理 大型语言模型(如 GPT-4)虽经过安全对齐,但仍易被“越狱”。现有黑盒攻击依赖启发式算法(如遗传算法)优化提示词模板,缺乏可解释性且效率无法保证;白盒攻击则无法应用于闭源模型。这篇论文提出了一种强化学习驱动的黑盒攻击方法,结合表示空间引导与意图检测,实现高效、可解释的越狱! 🚀 方法创新 1️⃣ 表征空间引导 :通过分析恶意/良性提示在嵌入空间的分布差异,设计“边界线评分”,指导强化学习优化提示嵌入向良性空间迁移。 2️⃣ 意图一致性检测 :引入意图评分,确保越狱后的提示与原始恶意意图高度一致,避免误判越狱。 3️⃣ 敏感性分析 :首次系统分析强化学习参数,特别是折扣率对越狱效果的影响,为类似的后续研究和 RL 方法在 LLM 任务中的应用提供指导 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览