专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

一步文生图大模型还能“更小更快”,MixDQ量化方法无损“瘦身”扩散模型3倍,提速1.5倍

将门创投  · 公众号  · 科技创业  · 2024-06-06 08:22
    

主要观点总结

本文介绍了MixDQ,一种面向少步扩散模型的混合比特量化方案。该方案解决了少步数生成模型在低比特量化时面临的挑战,实现了在W8A8几乎无损的量化,并将模型开源为Huggingface Pipeline。通过高效量化算子实现,MixDQ显著减少了模型的计算与存储消耗,保持了生成质量,是第一个实现少步生成模型量化实际显存与延迟优化的方案。

关键观点总结

关键观点1: MixDQ的背景和重要性

随着扩散模型在视觉生成领域的进展,少步生成模型成为热点研究话题。然而,模型的显存开销仍然显著,低比特量化是一种减少模型计算存储开销的方法。MixDQ解决了扩散模型的显存瓶颈问题,让文生图大模型更小更快,能够在各种小存储终端设备上被应用起来。

关键观点2: MixDQ的主要内容和方案

MixDQ分析了少步数生成模型低比特量化的挑战,并提出了一种面向少步扩散模型的混合比特自动化设计方案。通过采用混合精度量化,解决了量化被少数极端敏感层所瓶颈的问题。采用指标解耦的方案来准确识别量化敏感层,并考虑了文本特征量化的特殊问题。实现了显著的的显存与延迟优化。

关键观点3: MixDQ的效果和优势

MixDQ在W8A8时获得了比FP16更好的生成质量,W5A8时仅损失了少量的FID、CLIPScore和ImageReward。与现有方案相比,MixDQ是第一个实现少步生成模型的量化实际显存与延迟优化的方案,且保持了生成效果与FP16几乎完全一致。

关键观点4: 如何投稿到TechBeat

TechBeat是由将门创投建立的AI学习社区,接受最新技术解读、系统性知识分享等原创文章投稿。稿件需要标明作者信息,并选择深度技术解析及科研心得方向对用户启发更大的文章进行投稿。投稿方式包括发送邮件到指定邮箱或添加工作人员微信。关注“将门创投”公众号,后台回复“投稿”二字,可获得详细的投稿说明。


文章预览

我们提出了MixDQ,一种面向少步扩散模型的混合比特量化方案。 MixDQ分析定位了“少步扩散模型量化”的独特问题,并提出针对性解决方案。 针对少步生成模型,在现有量化方案在W8A8损失严重的情况下,MixDQ在能够实现多方面指标(图像质量,文图吻合,人为偏好)无损的W8A8量化,W4A8无明显视觉损失。 我们实现了高效的INT8 GPU算子,以实现实际的显存与延迟优化,并将模型开源为Huggingface Pipeline,通过几行代码即可调用。 论文标题: MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization  论文链接: https://arxiv.org/abs/2405.17873 Project page: https://a-suozhang.xyz/mixdq.github.io/ Huggingface Pipeline: https://huggingface.co/nics-efc/MixDQ 代码链接: https://github.com/A-suozhang/MixDQ  一、前言 近年来,扩散模型(Diffusion Model)在视觉生成领域取得了显 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览