手机:16601807362,可咨询购买自动驾驶开发套件、自动驾驶教学平台及解决方案、线控底盘、Mobileye相机、德尔福和博世4D雷达、激光雷达。
今天看啥  ›  专栏  ›  人工智能AI大模型与汽车自动驾驶

模型部署必备!Tensor Cores使用方法

人工智能AI大模型与汽车自动驾驶  · 公众号  ·  · 2024-07-31 07:24

文章预览

本文只做学术分享,如有侵权,联系删文 概要介绍 TensorCore 是从Nvidia Volta 架构GPU开始支持的重要特性,使CUDA开发者能够使用混合精度来获得更高的吞吐量,而不牺牲精度。TensorCore已经在许多深度学习框架(包括Tensorflow、PyTorch、MXNet和Caffe2)中支持深度学习训练。本文将展示如何使用CUDA库在自己的应用程序中使用张量核,以及如何在CUDA C++设备代码中直接编程。 TensorCore TensorCore是可编程的 矩阵乘法和累加单元 ,可以提供多达125 Tensor tflop的训练和推理应用。TensorCore及其相关的数据路径是定制的,以显著提高浮点计算吞吐量。每个TensorCore提供一个4x4x4矩阵处理数组,它执行操作D=A*B+C,其中A、B、C和D是4×4矩阵,如下图所示。矩阵乘法输入A和B是FP16矩阵,而累积矩阵C和D可以是FP16或FP32矩阵。 每个TensorCore每个时钟周期可以执行64个浮点FMA混合精度操 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览