今天看啥  ›  专栏  ›  晓飞的算法工程笔记

ICML'24 | ERQ:32位转5位仅掉些许精度,来看看两段式后训练量化

晓飞的算法工程笔记  · 公众号  ·  · 2024-09-26 12:14

文章预览

后训练量化( PTQ )在视觉 Transformer ( ViTs )领域引起了广泛关注,因为它在模型压缩方面表现出了高效率。然而,现有的方法通常忽视了量化权重和激活之间复杂的相互依赖关系,导致了相当大的量化误差。论文提出了一种名为 ERQ 的两步 PTQ 方法,精心设计用于顺序降低激活和权重量化带来的量化误差。 ERQ 首先引入了激活量化误差减小( Aqer ),将激活量化误差的最小化策略性地表述为一个岭回归问题,并通过使用全精度更新权重来解决。随后, ERQ 引入了权重量化误差减小( Wqer ),采用迭代的方法来减轻由权重量化引起的量化误差。在每次迭代中,采用经验推导出的有效代理来细化量化权重的舍入方向,并结合岭回归求解器以减少权重量化误差。实验结果证明了该方法的有效性。值得注意的是, ERQ 在 W3A4 ViT-S 的准确性上超越了最先进的 GP ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览