TensorRT是如何做到比其他框架更快的？背后的底层内核原因拆解

江大白 · 公众号 · · 2024-07-25 08:00

文章预览

以下文章来源于微信公众号：糯盐作者：糯盐链接：https://mp.weixin.qq.com/s/nVRA0JlkOmSUXpaub1VPTg 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读 TensorRT是NVIDIA开发的一个可以进行高性能推理的C++库，是一个高性能推理优化引擎，其核心库是使用C++去加速NVIDIA生产的GPU。本文讲解了Tensorrt性能优化的相关知识，希望对大家有帮助！一. 是什么？ 2016年Nvidia为自家GPU加速推理而提供的SDK，人们有时也把它叫做推理框架。二. 为什么？只有Nvidia最清楚自家GPU或DLA该如何优化，所以TensorRT跑网络的速度是最快的，比直接用Pytorch快N倍。遥遥领先的TensorRT 三. 怎么做到的？ 1. 搜索整个优化空间与Pytorch等其它训练框架最大区别是，TensorRT的网络优化算法是基于目标GPU或DLA硬件模型所做得推理性能的优化，而其它框架一方面需要综合考虑训练和推理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博