专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等

专知  · 公众号  ·  · 2024-07-25 14:00

文章预览

随着自监督学习的进步、预训练语料库中数万亿标记的可用性、指令微调以及具有数十亿参数的大型Transformer的发展,大型语言模型(LLMs)现在能够生成符合事实且连贯的人类查询响应。然而,训练数据质量参差不齐可能导致生成不良响应,成为一个重大挑战。 在过去的两年里,从不同角度提出了各种方法来增强LLMs,特别是在使其与人类期望对齐方面 。尽管做出了这些努力,但尚未有一篇综合性调查论文对这些方法进行分类和详细说明。在本工作中,我们旨在填补这一空白,将这些论文分类为不同主题,并提供每种对齐方法的详细解释,从而帮助读者全面了解该领域的现状。 在过去的几十年中,通过自监督学习对大型语言模型(LLMs)进行的预训练取得了显著进展 。这些进步得益于更大的仅解码Transformer的开发、数万亿标记的利用以及跨多个GPU ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览