专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

回顾PyTorch Eager Mode 量化 TensorRT 加速

oldpan博客  · 公众号  ·  · 2024-11-18 19:35
    

文章预览

from https://leimao.github.io/blog/PyTorch-Eager-Mode-Quantization-TensorRT-Acceleration/ 从 PyTorch 2.3.0 开始,PyTorch 提供了三种量化接口:eager mode 量化、FX graph mode 量化以及 PyTorch 2 Export 量化。 由于最新的 PyTorch 2 Export 量化接口阻止了量化后的 PyTorch 模型导出为 ONNX,因此若不开发自定义的 PyTorch FX graph 量化后端(比如 fx2trt [1] ),就无法使用 TensorRT 加速模型推理。 而 eager mode 量化和 FX graph mode 量化接口都支持将量化后的 PyTorch 模型导出为 ONNX,可以进一步使用 TensorRT 进行优化和加速。尽管 FX graph mode 量化接口更加灵活和强大,但某些使用场景下,使用 eager mode 量化接口仍是不可避免的。 在这篇文章中,我将展示如何使用 TensorRT 加速 PyTorch eager mode 量化接口生成的量化模型。同样的方法也适用于 FX graph mode 量化接口生成的量化模型,因为这两种量化模型都可以导出 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览