一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

Anthropic: 预训练阶段引入人类反馈更安全

深度学习自然语言处理  · 公众号  ·  · 2024-12-20 18:04
    

文章预览

  作者:yearn 原文:https://zhuanlan.zhihu.com/p/701067046 排版:青稞AI 该研究探讨了在语言模型(LM)预训练阶段引入人类偏好反馈,以减少模型生成不符合人类偏好的内容,如虚假信息、冒犯性评论、个人身份信息等。这项工作认为,与仅在微调阶段对模型进行对齐不同,在预训练时纳入人类偏好可以更有效地促使模型生成符合人类期望的内容。文章提出,当前主流的微调方法(如监督学习和RLHF)在大模型上往往难以有效“遗忘”不符合人类偏好的训练数据。该研究的动机是通过直接在预训练阶段嵌入人类偏好来提升模型的对齐效果。 LLM所有 细分方向 群+ ACL25/ICML25/NAACL25 投稿群-> LLM所有细分领域群、投稿群从这里进入! 主要贡献 在毒性分数(越低越好)方面,采用标准预训练目标(蓝色实线)和条件训练目标(橙色实线)进行预训练的语言模型表现 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览