注册登录

专栏名称: 机器学习算法工程师

机器学习、深度学习、数据挖掘等人工智能领域的技术实战干货文章，这里都有！分享从业经验是我们的不变的准则……

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

目录

相关文章推荐

北京厚朴中医 · 厚朴电子日历 · 2 天前

中国中医 · 朝“问”健康丨清明时节“春困”“春燥”怎么办 ... · 2 天前

今天看啥 › 专栏 › 机器学习算法工程师

没有了T5，8GB可以出图的SD3还能打吗？

机器学习算法工程师 · 公众号 · · 2024-06-16 07:26

文章预览

点蓝色字关注 “机器学习算法工程师 ” 设为星标，干货直达！目前StabilityAI已经发布了 Stable Diffusion 3 ，SD 3相比上一代SDXL在文本理解能力上有明显提升，这主要是归功于SD 3采用了 T5 XXL 作为文本编码器。但如果没有了T5 XXL，SD3的性能还能打吗？在架构上SD3采用了新的多模态DiT（MMDiT），它对于文本和图像采用两套transformer，但是在attention上共享。而文本编码器包含三个： CLIP-L/14 ， CLIP-G/14 ， T5 XXL ，三个模型的参数量大小分别为 124M 、 695M 、 4762M 。可以看到T5 XXL明显比CLIP在参数量上大了一个量级。在实现上，是先将两个CLIP的特征进行拼接，得到77x2048的特征，然后通过维度上zero padding得到77x4096的特征，再和T5 XXL提取的77x4096的特征拼接成144x4096的特征。训练过程中，三个文本编码器的特征单独以46.4%的概率进行drop。这样在推理的时候其实是可 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北京厚朴中医 · 厚朴电子日历

2 天前

中国中医 · 朝“问”健康丨清明时节“春困”“春燥”怎么办？食补方子请收好

2 天前

云南网 · 早fun丨连休6天！云南一地又要放假了

10 月前

GIANTEC 聚辰半导体 · 《股东来了》｜投资者走进上市公司——聚辰股份

9 月前

邃瞳科学云 · 清华大学/伦敦大学学院唐军旺院士Nature Sustainability:光子-声子联动催化实现高效甲烷制甲醛

8 月前

小草庐 · 下班收到Sirseno的实体专辑

10 月前

行业研究报告 · 退货率75%，女装店家的天塌了

4 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号