文章预览
转自:新智元 大语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。 然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。 近日,智源推出了新的扩散模型架构OmniGen,一种新的用于统一图像生成的多模态模型。 论文地址:https://arxiv.org/pdf/2409.11340 代码仓库:https://github.com/VectorSpaceLab/OmniGen Demo: https://huggingface.co/spaces/Shitao/OmniGen OmniGen具有以下特点: 统一性: OmniGen天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen可以处理经典的计算机视觉任务,将其转换为图像生成任务。 简单性: OmniGen的架构高度简化。此外,与现有模型相比,它更加用户友好,可以通过指令完成复杂的任务,而不需要冗长的处理步骤和额外的模块(如ControlNet或IP
………………………………