机器学习、深度学习、数据挖掘等人工智能领域的技术实战干货文章,这里都有!分享从业经验是我们的不变的准则……
今天看啥  ›  专栏  ›  机器学习算法工程师

NVIDIA和MIT联合发布的高效文生图模型Sana开源了:比Flux快,但未必更好!

机器学习算法工程师  · 公众号  · AI 科技自媒体  · 2024-11-27 20:04
    

主要观点总结

NVIDIA和MIT联合发布了高效的文生图模型Sana,其中参数量只有0.6B的Sana-0.6B与12B的Flux效果相当,但生成图像速度快40倍。文章介绍了Sana的模型和代码已经开源,并详细阐述了Sana的四个关键点:采用压缩率更低的VAE、采用线性DiT、采用LLM作为文本编码器以及高效训练和采样策略。虽然Sana在某些方面不能与Flux相提并论,但其速度和优化策略仍然具有探索价值。

关键观点总结

关键观点1: Sana模型的参数效率和生成速度

Sana模型参数量小,且生成图像速度快,特别是Sana-0.6B,能在短时间内生成高分辨率图像。

关键观点2: Sana模型的开源及与Flux的对比

Sana的模型和代码已经开源,但与Flux相比,Sana在某些评估指标上表现相当,但在图像生成质量和文本指令跟随能力上仍有差距。

关键观点3: Sana的优化策略

文章详细介绍了Sana背后的四个优化策略,包括采用压缩率更低的VAE、线性DiT、LLM作为文本编码器以及高效训练和采样策略。

关键观点4: Sana模型的局限性

虽然Sana在某些方面表现良好,但与Flux等模型相比仍有一定差距,尤其是在图像生成质量和文本指令跟随能力上。


文章预览

⇧ 点 蓝色 字关注 “AI小小将” 在上个月,NVIDIA和MIT联合发布了一个 高效的文生图模型Sana ,Sana也是DiT模型。其中参数量只有0.6B的 Sana-0.6B与12B的Flux效果相当,但是它的参数量小20倍,生图速度快40倍 。而且,Sana-0.6B可以部署在16GB的笔记本电脑GPU上,在不到1秒的时间内生成1024×1024分辨率的图像。 目前, Sana 的模型和代码已经开源: 代码: https://github.com/NVlabs/Sana 模型: https://huggingface.co/Efficient-Large-Model/Sana_1600M_1024px 不过目前开源的模型只有更大的 Sana-1.6B ,而不是那个最小的模型 Sana-0.6B 。Sana-1.6B比Sana-0.6B推理速度更慢一些(1.2s vs 0.9s),但是生图效果要更好一些。这里要注意的一点是,论文里面说Sana能和Flux dev打平是 定量评估 ,评估指标包括FID、CLIP、GenEval和DPG。其中FID是评估生图的质量,但其实并可不靠,与人工评测结果不一定正相关, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览