文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Image Generation|RLHF| 1. Preference Optimization 2. Online DM Finetuning SePPO: Semi-Policy Preference Optimization for Diffusion Alignment 2024-10-07|U Rochester, Purdue U, Yonsei U, Tencent AI Lab, U Washington |⭐️ http://arxiv.org/abs/2410.05255v1 https://github.com/DwanZhang-AI/SePPO 概述 本文提出了一种名为Semi-Policy Preference Optimization(SePPO)的方法, 旨在通过人类反馈优化扩散模型(DMs),以提高其在视觉生成任务中的表现 。现有的基于人类反馈的强化学习(RLHF)方法通常依赖于奖励模型和人类标注的数据,这在视觉生成任务中面临着数据获取困难的问题。SePPO方法的创新之处在于它不依赖于传统的奖励模型或成对的人类标注数据,而是通过利用以前的检查点作为参考模型,生成参考样本,从而优化模型的偏好对齐。该方
………………………………