文章预览
以下 文 章来源于微信公众号:oldpan博客 作者:oldpan 链接:https://mp.weixin.qq.com/s/CZ3BvxYe3fBmU15qeTY-NA 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 模型性能优异是重要的一方面,但是要将模型完美的应用到实际中往往避免不了模型的量化。而本文详细介绍了如何调用TensorRT的最新量化方式,希望对大家有所帮助。 简单聊聊基于TensorRT的量化在2024年发展成什么样了。 在TensorRT版本10.x前, 量化方式 一般有两种: 隐式量化,通过trt提供的trtexec api校准得到scale然后构建量化模型,或者已有scale,python api直接设置scale再构造模型 显式量化,通过QDQ节点量化,QDQ中包含了scale,通过trt的quantize和dequantize节点去显式控制量化节点 首先说下隐式量化,大家应该都用过 trtexec --onnx=model.onnx --saveEngine=model.engine --fp16 --int8 这类似的命令,这个命令会直
………………………………