专栏名称: 得物技术
技术知识分享交流平台,与你一同走向技术的云端。
目录
相关文章推荐
今天看啥  ›  专栏  ›  得物技术

Triton-Lang在Transformer优化加速中的实践 | 得物技术

得物技术  · 公众号  ·  · 2025-01-13 18:30
    

文章预览

目录 一、前言 二、GPU 基础 三、Triton 编程实例     1. 向量求和     2. 矩阵乘法     3. 旋转位置编码 四、总结 一 前 言 众所周知,英伟达(Nvidia)自2006年推出CUDA以来,经过近20年的发展,尤其是经历了以卷积为代表的深度学习和近两年以Transformer为基础的LLM的推动,CUDA编程基本上成为了GPU编程的代名词。CUDA作为GPU的编程语言,不仅使用户能充分发挥Nvidia GPU的高性能的并行计算能力,也逐渐构筑了一个包括硬件、驱动、开发库和编程技巧的完备生态链,从而使CUDA成为了人工智能、高性能计算和云计算中的核心依赖。  (图片来源:Triton-lang documentation ) Triton是OpenAI 推出的以python为编程语言基础,专门为深度学习研发和高性能计算而设计的编程语言和编译器,旨在简化和优化GPU编程的复杂操作,降低高性能优化的门槛。 在大模型推理优化领域,已有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览