大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知 · 公众号 · · 2024-07-25 14:00

文章预览

随着自监督学习的进步、预训练语料库中数万亿标记的可用性、指令微调以及具有数十亿参数的大型Transformer的发展，大型语言模型（LLMs）现在能够生成符合事实且连贯的人类查询响应。然而，训练数据质量参差不齐可能导致生成不良响应，成为一个重大挑战。在过去的两年里，从不同角度提出了各种方法来增强LLMs，特别是在使其与人类期望对齐方面。尽管做出了这些努力，但尚未有一篇综合性调查论文对这些方法进行分类和详细说明。在本工作中，我们旨在填补这一空白，将这些论文分类为不同主题，并提供每种对齐方法的详细解释，从而帮助读者全面了解该领域的现状。在过去的几十年中，通过自监督学习对大型语言模型（LLMs）进行的预训练取得了显著进展。这些进步得益于更大的仅解码Transformer的开发、数万亿标记的利用以及跨多个GPU ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博