专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

大模型如何多模态偏好对齐?最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知  · 公众号  ·  · 2024-09-23 12:00

文章预览

偏好调整是将深度生成模型与人类偏好对齐的关键过程 。本文对偏好调整及其与人类反馈的整合的最新进展进行了全面综述。文章分为三个主要部分: 介绍和预备知识 :介绍强化学习框架、偏好调整任务、模型和跨不同模态(语言、语音、视觉)的数据集,以及不同的策略方法; 深入分析每种偏好调整方法 :详细分析偏好调整中使用的方法; 应用、讨论与未来方向 :探讨偏好调整在下游任务中的应用,包括不同模态的评估方法,以及未来研究方向的展望。 我们的目标是展示偏好调整与模型对齐的最新方法,提升研究人员和从业者对该领域的理解。我们希望能够激励更多人参与并推动这一领域的创新。 关键词 :偏好调整、人类偏好、强化学习、多模态、多语言、大型语言模型、视觉语言模型、语音语言模型、生成模型、综述、DPO、RLHF。 1 引 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览