2024-11-17 06:47
本条微博链接
本文提出了一种基于快速响应的LLM越狱防御新范式,通过“越狱扩增”技术和Guard Fine-tuning方法显著降低了攻击成功率,但同时也强调了及时识别、响应速度和威胁建模的重要性。
[CL]《Rapid Response: Mitigating LLM Jailbreaks with a Few Examples》A Peng, J Michael, H Sleight, E Perez... [Anthropic New York Un
………………………………