文章预览
前言 简单聊聊基于TensorRT的量化在2024年发展成什么样了。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 在TensorRT版本10.x前, 量化方式 一般有两种: 隐式量化,通过trt提供的trtexec api校准得到scale然后构建量化模型,或者已有scale,python api直接设置scale再构造模型 显式量化,通过QDQ节点量化,QDQ中包含了scale,通过trt的quantize和dequantize节点去显式控制量化节点 首先说下隐式量化,大家应该都用过 trtexec --onnx=model.onnx --saveEngine=model.engine --fp16 --int8 这类似的命令,这个命令会直接执行implicit quantization (IQ),校准同时寻找性能最优的op(可能是int8可能是fp16),只支持CNN模型(transformer的不大行),量化精度不是特别可控,不好复现,这个方式也只支持INT8。
………………………………