专栏名称: 图形学与几何计算
介绍清华大学图形学实验室实验室的研究进展、论文成果、学术出版、企业应用与合作等。欢迎关注本公众号,了解图形学、Jittor平台、CVMJ期刊的相关资讯。
今天看啥  ›  专栏  ›  图形学与几何计算

计图开源:一致角色生成框架Photomaker和StoryDiffusion

图形学与几何计算  · 公众号  · 科技自媒体  · 2024-08-14 13:40
    

主要观点总结

NK-JittorCV最新开源了NK-Diffusion仓库,支持计图框架在AIGC领域的应用。仓库包括两个重要工作:PhotoMaker和StoryDiffusion。PhotoMaker能够基于文本提示生成个性化的ID图像,而StoryDiffusion能够生成一系列一致性的图像或视频。两者都已在GitHub上开源,并提供了详细的教程。NK-JittorCV聚焦计算机视觉领域,为优秀的计算机视觉项目提供支持。

关键观点总结

关键观点1: NK-Diffusion仓库的开源

NK-JittorCV最新开源了NK-Diffusion仓库,用于支持计图框架在AIGC领域的应用。

关键观点2: PhotoMaker的介绍和特点

PhotoMaker能够基于文本提示生成个性化的ID图像,具有高效率、高质量与多样性、强大的控制性等特点。

关键观点3: StoryDiffusion的目标和特点

StoryDiffusion旨在解决基于扩散的生成模型在生成一系列图像时保持内容一致性的挑战,提出了一种新的自注意力计算方法,并已经开源Jittor版本代码。

关键观点4: NK-JittorCV的目标和重要性

NK-JittorCV是由南开大学媒体计算实验室主导并维护的Jittor代码仓库,聚焦计算机视觉领域,围绕国产的Jittor框架为优秀的计算机视觉项目提供支持。


文章预览

NK-JittorCV 最新开源了 NK-Diffusion 仓库 ,用于支持计图框架( Jittor[3]) 在 AIGC 领域的应用。目前,南开大学媒体计算实验室被图灵奖得主 Yann Lecun 教授点赞的一致角色生成最新工作 PhotoMaker[1] 和 StoryDiffusion[2] 现已基于计图框架在 GitHub 开源,进一步丰富了计图框架在 AIGC 领域的生态, GitHub 仓库链接: https://github.com/Nankai-JittorCV/nk-diffusion 本文将对这两个工作相关内容进行简要介绍。 Part 1 问题和背景 一致角色生成基于扩散模型(Diffusion Model)生成具有一致性和连贯性的角色图像和视频,对生成式模型的发展具有重要意义。 如图1所示, 给定几张输入的身份识别(ID)图像,PhotoMaker能够基于文本提示在一次前向传递中生成多样化的个性化ID图像。 图1 一致角色生成示例 角色的一致性根据不同的任务需求而体现于保证生成的角色在人脸、衣着和姿态等方面的一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览