大规模语言模型的人类偏好学习综述

专知 · 公众号 · · 2024-06-20 00:45

文章预览

近期，多功能大规模语言模型（LLMs）的激增在很大程度上依赖于通过偏好学习将越来越强大的基础模型与人类意图对齐，从而在广泛的背景下增强LLMs的适用性和有效性。尽管已经进行了众多相关研究，但关于如何将人类偏好引入LLMs的视角仍然有限，这可能阻碍了对人类偏好与LLMs之间关系的深入理解以及其局限性的实现。在这篇综述中，我们从偏好中心的角度回顾了在人类偏好学习领域针对LLMs的探索进展，涵盖了偏好反馈的来源和形式、偏好信号的建模和使用以及对齐LLMs的评估。我们首先根据数据来源和形式对人类反馈进行分类。然后总结了人类偏好建模的技术，并比较了不同模型派别的优缺点。此外，我们根据利用人类偏好信号的目标展示了各种偏好使用方法。最后，我们总结了评估LLMs在人类意图对齐方面的一些流行方法，并讨论了我们 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博