专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

如何量化文图/视频生成模型? 清华&Infinigence提出高效且准确的DiT量化方法ViDiT-Q

将门创投  · 公众号  · 科技创业  · 2024-06-07 08:22
    

文章预览

我们提出了ViDiT-Q, 一种面向Diffusion Transformer (DiTs)的后训练量化(PTQ)方法,对基于DiT的文生图/文生视频模型的量化做出了先行探索。 我们分析了现有Diffusion量化方案在处理DiT模型量化时的独特问题,概括出DiT模型量化的若干关键挑战,并针对这些挑战提出对应的解决方案,设计了针对DiT的量化方案ViDiT-Q。 针对更低比特量化,我们定位了“量化被“瓶颈”在若干敏感层”的关键问题。并基于文生图/视频的任务特性,提出了一种指标解耦的混合位宽分配方案。 我们在主流实验场景与模型上进行了广泛的评估。针对文图生成模型(PixArt-alpha & sigma),ViDiT-Q可实现数值指标与视觉效果完全无损的W8A8与W4A8量化。针对文视频生成模型 (Open-SORA) ,ViDiT-Q在W8A8时实现数值指标无损,在W4A8时无明显视觉损失。 论文标题: ViDiT-Q: Efficient and Accurate Quantization of Diffus ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览