文章预览
点蓝色字关注 “机器学习算法工程师 ” 设为 星标 ,干货直达! 目前StabilityAI已经发布了 Stable Diffusion 3 ,SD 3相比上一代SDXL在文本理解能力上有明显提升,这主要是归功于SD 3采用了 T5 XXL 作为文本编码器。 但如果没有了T5 XXL,SD3的性能还能打吗? 在架构上SD3采用了新的多模态DiT(MMDiT),它对于文本和图像采用两套transformer,但是在attention上共享。 而文本编码器包含三个: CLIP-L/14 , CLIP-G/14 , T5 XXL ,三个模型的参数量大小分别为 124M 、 695M 、 4762M 。可以看到T5 XXL明显比CLIP在参数量上大了一个量级。在实现上,是先将两个CLIP的特征进行拼接,得到77x2048的特征,然后通过维度上zero padding得到77x4096的特征,再和T5 XXL提取的77x4096的特征拼接成144x4096的特征。 训练过程中,三个文本编码器的特征单独以46.4%的概率进行drop。这样在推理的时候其实是可
………………………………