文章预览
from https://leimao.github.io/blog/PyTorch-Eager-Mode-Quantization-TensorRT-Acceleration/ 从 PyTorch 2.3.0 开始,PyTorch 提供了三种量化接口:eager mode 量化、FX graph mode 量化以及 PyTorch 2 Export 量化。 由于最新的 PyTorch 2 Export 量化接口阻止了量化后的 PyTorch 模型导出为 ONNX,因此若不开发自定义的 PyTorch FX graph 量化后端(比如 fx2trt [1] ),就无法使用 TensorRT 加速模型推理。 而 eager mode 量化和 FX graph mode 量化接口都支持将量化后的 PyTorch 模型导出为 ONNX,可以进一步使用 TensorRT 进行优化和加速。尽管 FX graph mode 量化接口更加灵活和强大,但某些使用场景下,使用 eager mode 量化接口仍是不可避免的。 在这篇文章中,我将展示如何使用 TensorRT 加速 PyTorch eager mode 量化接口生成的量化模型。同样的方法也适用于 FX graph mode 量化接口生成的量化模型,因为这两种量化模型都可以导出
………………………………