文章预览
以下 文 章来源于微信公众号:DeepDriving 作者:一天到晚潜水的鱼 链接:https://mp.weixin.qq.com/s/IQTCUs8CcfgHxJCyV6cm3w 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 模型性能优异是重要的一方面,但是要将模型完美的应用到实际中往往避免不了模型的量化。而本文详细介绍了如何调用TensorRT的Python接口实现INT8量化,希望对大家有所帮助。 概述 目前深度学习模型的参数在训练阶段基本上都是采用 32 位浮点( FP32 )来表示,以便能有更大的动态范围用于在训练过程中更新参数。然而在推理阶段,采用 FP32 的精度会消耗较多的计算资源和内存空间,为此,在部署模型的时候往往会采用降低模型精度的方法,用 16 位浮点( FP16 )或者 8 位有符号整型( INT8 )来表示。从 FP32 转换为 FP16 一般不会有什么精度损失,但是 FP32 转换为 INT8 则可能会造
………………………………