文章预览
随着 OpenAI o1 向社区展示了思维链 Chain-of-Thought(CoT)对于大模型推理能力的强大提升,各种基于强化学习 RL 和提升 test-time 推理成本的方案 已经在大模型理解领域取得了很大的进展。 然而,在图像生成(Image Generation)领域,例如文生图(Text-to-Image)与文生视频(Text-to-Video),我们是否也可以借鉴 CoT 相关的策略,来提升图片或视频的质量和文本一致性呢? 来自香港中文大学、北京大学、和上海 AI Lab 的研究者们通过 Verify 和 Reinforce 的方案,系统地探索了 “CoT 推理+文生图” 的结合与潜力。研究结果表明,这些方法能够有效提升自回归(Autoregressive)图像生成的质量。 作者也提出了两种专门针对该任务的新型奖励模型—— 潜力评估奖励模型 (Potential Assessment Reward Model, PARM) 及其增强版本 PARM++ ,后者引入了反思机制(Reflection Mechanism),进
………………………………