专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
今天看啥  ›  专栏  ›  爱可可-爱生活

LLM STINGER 提出了一种利用强化学习微调大型语言模型自-20241115060634

爱可可-爱生活  · 微博  · AI  · 2024-11-15 06:06

文章预览

2024-11-15 06:06 本条微博链接 LLM STINGER 提出了一种利用强化学习微调大型语言模型自动生成对抗性后缀以攻破安全训练的 LLM 的新方法,其显著提高的攻击成功率和黑盒可访问性使其成为对抗性攻击领域的重要进展。 [LG]《LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs》P Jha, A Arora, V Ganesh [Georgia Institute of Technology] (202 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览