文章预览
作者丨科技猛兽 编辑丨极市平台 导读 受低比特 LLM 量化感知训练方案的启发,本文研究了三值 DiT 模型的 QAT 量化方法,并引入了 DiT 特异性改进来更好地训练。 本文目录 1 TerDiT:三值 Diffusion Transformer (来自港中文,上海交大,上海 AI Lab) 1 TerDiT 论文解读 1.1 Diffusion Transformer 变大之后的部署难题 1.2 Diffusion Transformer 1.3 模型量化 1.4 QAT 特定的模型架构改进 1.5 部署策略 1.6 实验设置 1.7 实验结果 太长不看版 大规模的预训练文生图扩散模型促进了高保真度图像的生成,尤其是随着基于 Transformer 的 Diffusion 架构的出现。在这些扩散模型中,Diffusion Transformer 表现出了优越的图像生成能力,做到了较低的 FID 分数和更高的可扩展性。然而,由于参数量大,部署大规模 DiT 模型很昂贵。尽管现有研究已经探索了有效的扩散模型部署技术,例如模型量化,但
………………………………