主要观点总结
本文对Stable Diffusion 3.0中的多模态DiT模型进行介绍,特别是其中的新型多模态DiT(MM-DiT)在扩散模型中的应用。文章详述了MM-DiT架构的创新点,包括为图像和文本标记设计独立的权重参数,以及特征融合的方式等。
关键观点总结
关键观点1: 新型多模态DiT(MM-DiT)的提出
在DiT框架的基础上,SD3提出了MM-DiT,并将其应用于扩散模型中,为图像和文本的融合处理提供了新的方案。
关键观点2: MM-DiT架构的创新点
MM-DiT为图像的潜在标记和文本标记设计了独立的权重参数,这些标记在进行注意力机制处理前合并,随后整体输入进行处理。
关键观点3: 文本嵌入与图像块嵌入的融合策略
SD 3采取了直接将文本嵌入与图像块嵌入合并的策略,绕过了交叉注意力机制的引入,所有Transformer层采用的参数并非通用,通过单一的自注意力机制促进特征间的互通。
关键观点4: 特征融合的方式
MM-DiT模型在特征融合阶段与原始的DiT模型相似,在图像的潜在空间内执行计算任务,文本特征通过CLIP模型的池化嵌入获得,然后直接与时间步嵌入相融合。
文章预览
技术总结专栏 本文对Stable Diffusion 3.0中的多模态DiT模型进行介绍。 在DiT框架的基础上,SD3提出了一种新型的多模态DiT(简称MM-DiT),并将其应用于扩散模型中。SD3的MM-DiT架构的一个创新点在于,它为图像的潜在标记(Latent Tokens)和文本标记(Tokens)设计了两组独立的权重参数。在进行注意力(Attention)机制处理之前,这些标记会被合并,随后作为一个整体输入到注意力机制中进行处理。 感兴趣的小伙伴可以看看官方的技术报告:https://stability.ai/news/stable-diffusion-3-research-paper 整体架构 上图为MM-DiT框架模型。 主要有以下几点改进 : 在Stable Diffusion模型的早期版本中,文本的文本嵌入(Text Embeddings)通常通过在U-Net结构内实施交叉注意力(Cross Attention)机制与视觉信息融合,其中文本嵌入充当注意力计算中的键(keys)和值(values)。然而,SD 3打破了
………………………………