大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知 · 公众号 · · 2024-09-23 12:00

文章预览

偏好调整是将深度生成模型与人类偏好对齐的关键过程。本文对偏好调整及其与人类反馈的整合的最新进展进行了全面综述。文章分为三个主要部分：介绍和预备知识：介绍强化学习框架、偏好调整任务、模型和跨不同模态（语言、语音、视觉）的数据集，以及不同的策略方法；深入分析每种偏好调整方法：详细分析偏好调整中使用的方法；应用、讨论与未来方向：探讨偏好调整在下游任务中的应用，包括不同模态的评估方法，以及未来研究方向的展望。我们的目标是展示偏好调整与模型对齐的最新方法，提升研究人员和从业者对该领域的理解。我们希望能够激励更多人参与并推动这一领域的创新。关键词：偏好调整、人类偏好、强化学习、多模态、多语言、大型语言模型、视觉语言模型、语音语言模型、生成模型、综述、DPO、RLHF。 1 引 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博