机器学习、深度学习、数据挖掘等人工智能领域的技术实战干货文章,这里都有!分享从业经验是我们的不变的准则……
今天看啥  ›  专栏  ›  机器学习算法工程师

没有了T5,8GB可以出图的SD3还能打吗?

机器学习算法工程师  · 公众号  ·  · 2024-06-16 07:26
    

文章预览

点蓝色字关注 “机器学习算法工程师 ” 设为 星标 ,干货直达! 目前StabilityAI已经发布了 Stable Diffusion 3 ,SD 3相比上一代SDXL在文本理解能力上有明显提升,这主要是归功于SD 3采用了 T5 XXL 作为文本编码器。 但如果没有了T5 XXL,SD3的性能还能打吗? 在架构上SD3采用了新的多模态DiT(MMDiT),它对于文本和图像采用两套transformer,但是在attention上共享。 而文本编码器包含三个: CLIP-L/14 , CLIP-G/14 , T5 XXL ,三个模型的参数量大小分别为 124M 、 695M 、 4762M 。可以看到T5 XXL明显比CLIP在参数量上大了一个量级。在实现上,是先将两个CLIP的特征进行拼接,得到77x2048的特征,然后通过维度上zero padding得到77x4096的特征,再和T5 XXL提取的77x4096的特征拼接成144x4096的特征。 训练过程中,三个文本编码器的特征单独以46.4%的概率进行drop。这样在推理的时候其实是可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览