专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

对Triton的一些理解

吃果冻不吐果冻皮  · 公众号  ·  · 2024-09-27 08:26

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/721477452 认真了解Triton(本文讲的是Triton编译器,而不是Nvidia 的 Triton Inference Server)算起来也有大半年了,简单梳理一下自己的一些思考。 我认为Triton让自己与之前的AI Compiler不一样的技术哲学主要是三点。 一 定位 之前的AI Compiler,不论是TVM还是MLIR,在定位上就希望自己能够在网络层级,端到端地完成代码生成。或者说,从它们的视角来看,AI Compiler的定位是输入网络结构,输出网络级别的可执行的文件。这种远大的理想至少在NV的GPU战场上很难说非常成功,核心原因是性能上难以匹敌调用算子库或者模板库的竞品。而Triton的的定位很清楚,就是要做一个比CUDA更简单的DSL(这发生在openai接手Triton之后),或者说,它的定位就是让用户写Kernel更简单。这个定位延展下去,就是为什么Triton要认 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览