专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
今天看啥  ›  专栏  ›  爱可可-爱生活

发现了安全微调数据中的拒绝位置偏差问题,并通过显式训练LLM在响-20240719053410

爱可可-爱生活  · 微博  · AI  · 2024-07-19 05:34

文章预览

2024-07-19 05:34 本条微博链接 发现了安全微调数据中的拒绝位置偏差问题,并通过显式训练LLM在响应的任意位置拒绝生成有害内容的方式进行改进,大幅提高了LLM的安全性。 [CL]《Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training》Y Yuan, W Jiao, W Wang, J Huang... [The Chinese University of Hong Kong Tencent AI ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览