1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

人工智能前沿讲习 · 公众号 · · 2025-01-07 18:00

文章预览

↑ 点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读在 ImageNet-1K 上，本文的模型仅使用 372M 参数，在 256 px 生成中实现了 2.06 的 FID。在 T2I 基准测试中 (GenEval 和 DPG-Bench)，本文的模型只有 379M 参数，虽然尺寸很小，却超过了具有数十亿个参数的大模型 (比 SDXL 小 7 倍，比 IF-XL 小 14 倍)。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿太长不看版端侧文生图扩散模型的成功范式。现有的文生图 (T2I) 扩散模型有几个限制： 1) 模型尺寸过大不适合移动设备 (Mobile Devices)，2) 时延高，3) 生成质量很低。本文开发了一个很小，快速的 T2I 模型，旨在在移动平台上生成高分辨率和高质量的图像。本文提出了几个技术来实现这个目的。首先，作者系统地检查了网络架构的设计选择，以减少模型参数和延迟，同时确保高质量的生成 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博