文章预览
我的课程笔记,欢迎关注:https://github.com/BBuf/how-to-optim-algorithm-in-cuda/tree/master/cuda-mode CUDA-MODE课程笔记 第11课: Sparsity 这节课主要是作者介绍了一下PyTorch团队在Sparsity方向做的一些工作,重点为Sparsity的GPU推理,如果大家对Sparsity感兴趣,想了解一下它在实际工程应用方面的进展可以考虑听一下,如果不感兴趣可以调过,这个技术比较冷门,目前工业界的推理方案集中在量化上面。 课程笔记 作者的自我介绍,来自PyTorch Core团队,致力于架构优化,量化,Sparsity 方面的工作。特别是过去两年中,研究重点主要集中在生成式AI如LLMs和Vision Transformers上。现在他们的重点是把这些技术引入到GPU上,之前团队主要专注于边缘设备和CPU相关的工作。由于模型规模变得如此庞大,现在必须要在GPU上运行推理。我们希望利用已经训练好的模型,通过移除部分权重或
………………………………