专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

Stable Diffusion 3.0中的特征融合改进:MM-DiT

瓦力算法学研所  · 公众号  · AI 科技自媒体  · 2024-11-28 08:00
    

主要观点总结

本文对Stable Diffusion 3.0中的多模态DiT模型进行介绍,特别是其中的新型多模态DiT(MM-DiT)在扩散模型中的应用。文章详述了MM-DiT架构的创新点,包括为图像和文本标记设计独立的权重参数,以及特征融合的方式等。

关键观点总结

关键观点1: 新型多模态DiT(MM-DiT)的提出

在DiT框架的基础上,SD3提出了MM-DiT,并将其应用于扩散模型中,为图像和文本的融合处理提供了新的方案。

关键观点2: MM-DiT架构的创新点

MM-DiT为图像的潜在标记和文本标记设计了独立的权重参数,这些标记在进行注意力机制处理前合并,随后整体输入进行处理。

关键观点3: 文本嵌入与图像块嵌入的融合策略

SD 3采取了直接将文本嵌入与图像块嵌入合并的策略,绕过了交叉注意力机制的引入,所有Transformer层采用的参数并非通用,通过单一的自注意力机制促进特征间的互通。

关键观点4: 特征融合的方式

MM-DiT模型在特征融合阶段与原始的DiT模型相似,在图像的潜在空间内执行计算任务,文本特征通过CLIP模型的池化嵌入获得,然后直接与时间步嵌入相融合。


文章预览

技术总结专栏 本文对Stable Diffusion 3.0中的多模态DiT模型进行介绍。 在DiT框架的基础上,SD3提出了一种新型的多模态DiT(简称MM-DiT),并将其应用于扩散模型中。SD3的MM-DiT架构的一个创新点在于,它为图像的潜在标记(Latent Tokens)和文本标记(Tokens)设计了两组独立的权重参数。在进行注意力(Attention)机制处理之前,这些标记会被合并,随后作为一个整体输入到注意力机制中进行处理。 感兴趣的小伙伴可以看看官方的技术报告:https://stability.ai/news/stable-diffusion-3-research-paper 整体架构 上图为MM-DiT框架模型。 主要有以下几点改进 : 在Stable Diffusion模型的早期版本中,文本的文本嵌入(Text Embeddings)通常通过在U-Net结构内实施交叉注意力(Cross Attention)机制与视觉信息融合,其中文本嵌入充当注意力计算中的键(keys)和值(values)。然而,SD 3打破了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览