大规模DiT模型部署轻松拿下！港中文等提出TerDiT：性能不输全精度模型

arXiv每日学术速递 · 公众号 · · 2024-06-16 14:38

文章预览

作者丨科技猛兽编辑丨极市平台极市导读受低比特 LLM 量化感知训练方案的启发，本文研究了三值 DiT 模型的 QAT 量化方法，并引入了 DiT 特异性改进来更好地训练。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿本文目录 1 TerDiT：三值 Diffusion Transformer (来自港中文，上海交大，上海 AI Lab) 1 TerDiT 论文解读 1.1 Diffusion Transformer 变大之后的部署难题 1.2 Diffusion Transformer 1.3 模型量化 1.4 QAT 特定的模型架构改进 1.5 部署策略 1.6 实验设置 1.7 实验结果太长不看版大规模的预训练文生图扩散模型促进了高保真度图像的生成，尤其是随着基于 Transformer 的 Diffusion 架构的出现。在这些扩散模型中，Diffusion Transformer 表现出了优越的图像生成能力，做到了较低的 FID 分数和更高的可扩展性。然而，由于参数量大，部署大规模 DiT 模型很昂贵。尽管现有研究 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

青海教育 · 解码《纲要》④ | 促进学生健康成长、全面发展

2 天前

青海教育 · 解码《纲要》④ | 促进学生健康成长、全面发展

2 天前

日食记 · 夏天一半食欲都是它给的，少油少盐还简单。

9 月前

赛柏蓝器械 · 高值医用耗材集采，新动态

8 月前

四大人新出路 · 社招推送：广东机场集团临空产业发展有限公司招聘产业投资岗/成本控制岗，广州。

6 月前

德鲁克博雅管理 · 如何有效激励员工，而不是“画大饼”

1 月前