主要观点总结
文章介绍了基于扩散模型的AI生图存在的风险内容问题,包括侵犯版权和包含风险内容(如虚假新闻、暴力色情内容)的图像。针对此,学界提出了“概念移除”方法,而最新研究RECE在概念移除方面取得了很好的效果。RECE主要包含模型编辑和嵌入推导两个模块,采用高效的解析解进行风险概念的移除,且对无关概念破坏极小。文章还介绍了RECE的具体实现过程,包括算法流程、实验效果及作者简介等相关内容。
关键观点总结
关键观点1: AI生图存在风险内容问题
基于扩散模型的AI生成的图像有时真假难辨,常被恶意用户用来生成侵犯版权和包含风险内容的图像,如虚假新闻、暴力色情内容等。
关键观点2: 概念移除方法被提出
为了解决这个问题,学界提出了“概念移除”方法,即通过微调来移除文生图扩散模型中特定的风险概念,使其不再具备生成相应内容的能力。
关键观点3: RECE研究取得成果
最新研究RECE在概念移除方面取得了SOTA效果,对无关概念破坏极小,论文已被顶会ECCV 2024接收。整个过程基于高效的解析解。
关键观点4: RECE的主要模块
RECE主要包含模型编辑和嵌入推导两个模块,采用解析解的形式在交叉注意力层中将风险概念映射到无害概念,并推导出风险概念的新嵌入表示用于模型编辑。
关键观点5: 实验效果
在I2P基准数据集上,RECE的裸露移除效果超过了所有已有方法。在保护艺术版权方面,RECE也优于其他方法。此外,RECE对恶意用户的有意攻击同样可以有效防护,并且模型编辑耗时远低于其他方法。
文章预览
RECE团队 投稿 量子位 | 公众号 QbitAI 让AI绘画模型变“乖”,现在 仅需 3秒调整模型参数 。 效果be like:生成的风险图片比以往最佳方法减少 30% ! 像这样,在充分移除梵高绘画风格的同时,对非目标艺术风格几乎没有影响。 在移除裸露内容上,效果达到“只穿衣服,不改结构”。 这就是复旦大学提出的概念移除新方法—— RECE 。 目前,基于扩散模型的AI生图有时真假难辨,常被恶意用户用来生成侵犯版权和包含风险内容 (如虚假新闻、暴力色情内容) 的图像。 SD中使用的的安全措施是使用安全检查器,对违规的生成图像不予展示,还集成了一些用classifier-free guidance来规避风险概念的方法。 但在开源条件下,恶意用户可以轻松绕过这些机制,网上甚至有大把的教程…… 针对此,学界提出了“概念移除”,即通过微调来移除文生图扩散模型中特定
………………………………