专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

207-A1.2|RLHF系列(半策略偏好优化,在线反馈微调),解耦图像生成内部层中区域原语特征组件,使用一对多知识蒸馏加速扩散

AIGC Research  · 公众号  ·  · 2024-10-11 02:00

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Image Generation|RLHF| 1. Preference Optimization 2. Online DM Finetuning SePPO: Semi-Policy Preference Optimization for Diffusion Alignment 2024-10-07|U Rochester, Purdue U, Yonsei U, Tencent AI Lab, U Washington |⭐️ http://arxiv.org/abs/2410.05255v1 https://github.com/DwanZhang-AI/SePPO 概述 本文提出了一种名为Semi-Policy Preference Optimization(SePPO)的方法, 旨在通过人类反馈优化扩散模型(DMs),以提高其在视觉生成任务中的表现 。现有的基于人类反馈的强化学习(RLHF)方法通常依赖于奖励模型和人类标注的数据,这在视觉生成任务中面临着数据获取困难的问题。SePPO方法的创新之处在于它不依赖于传统的奖励模型或成对的人类标注数据,而是通过利用以前的检查点作为参考模型,生成参考样本,从而优化模型的偏好对齐。该方 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览