2024-07-19 05:34
本条微博链接
发现了安全微调数据中的拒绝位置偏差问题,并通过显式训练LLM在响应的任意位置拒绝生成有害内容的方式进行改进,大幅提高了LLM的安全性。
[CL]《Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training》Y Yuan, W Jiao, W Wang, J Huang... [The Chinese University of Hong Kong Tencent AI
………………………………