今天看啥  ›  专栏  ›  人工智能前沿讲习

1.4s 即可生成1024px图像!SnapGen:轻量化架构和训练策略实现端侧文生图

人工智能前沿讲习  · 公众号  ·  · 2025-01-07 18:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨科技猛兽 编辑丨极市平台 极市导读   在 ImageNet-1K 上,本文的模型仅使用 372M 参数,在 256 px 生成中实现了 2.06 的 FID。在 T2I 基准测试中 (GenEval 和 DPG-Bench),本文的模型只有 379M 参数,虽然尺寸很小,却超过了具有数十亿个参数的大模型 (比 SDXL 小 7 倍,比 IF-XL 小 14 倍)。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 太长不看版 端侧文生图扩散模型的成功范式。 现有的文生图 (T2I) 扩散模型有几个限制: 1) 模型尺寸过大不适合移动设备 (Mobile Devices),2) 时延高,3) 生成质量很低 。 本文开发了一个 很小,快速的 T2I 模型,旨在在移动平台上生成高分辨率和高质量的图像 。本文提出了几个技术来实现这个目的。 首先,作者系统地检查了网络架构的设计选择,以减少模型参数和延迟,同时确保高质量的生成 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览