专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

新突破！xJailbreak：用强化学习「越狱」大模型，可解释性黑盒攻击来了

深度学习自然语言处理 · 公众号 · · 2025-02-04 16:33

文章预览

来自原作者团队投稿编辑：深度学习自然语言处理大型语言模型（如 GPT-4）虽经过安全对齐，但仍易被“越狱”。现有黑盒攻击依赖启发式算法（如遗传算法）优化提示词模板，缺乏可解释性且效率无法保证；白盒攻击则无法应用于闭源模型。这篇论文提出了一种强化学习驱动的黑盒攻击方法，结合表示空间引导与意图检测，实现高效、可解释的越狱！ 🚀 方法创新 1️⃣ 表征空间引导：通过分析恶意/良性提示在嵌入空间的分布差异，设计“边界线评分”，指导强化学习优化提示嵌入向良性空间迁移。 2️⃣ 意图一致性检测：引入意图评分，确保越狱后的提示与原始恶意意图高度一致，避免误判越狱。 3️⃣ 敏感性分析：首次系统分析强化学习参数，特别是折扣率对越狱效果的影响，为类似的后续研究和 RL 方法在 LLM 任务中的应用提供指导 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博