连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

扩散模型如何做好可控生成?基于奖励引导的控制生成用于扩散模型中的推理时对齐:教程与综述

机器学习研究组订阅  · 公众号  · AI  · 2025-01-21 19:52
    

文章预览

本教程提供了关于推理时引导和对齐方法的深入指南,用于优化扩散模型中的下游奖励函数。 虽然扩散模型因其生成建模能力而广受欢迎,但在生物学等领域的实际应用中,通常需要生成最大化特定度量的样本(例如稳定性、蛋白质的亲和力、接近目标结构)。在这些场景中,扩散模型不仅可以生成逼真的样本,还可以在推理时明确地最大化所需的度量,而无需微调。 本教程探讨了此类推理时算法的基础方面。我们从统一的视角回顾了这些方法,展示了当前的技术 ——例如基于序贯蒙特卡洛(SMC)的引导、基于价值的采样和分类器引导——旨在近似软最优去噪过程(即强化学习中的策略),将预训练的去噪过程与价值函数结合,作为前瞻函数,从中间状态预测终极奖励。 在此框架下,我们提出了几种在文献中尚未涉及的新算法。此外,我们还讨 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览