文章预览
在LLM的训练/微调过程中,开发者通常会遇到一些瓶颈,包括GPU显存不够,经常遇到OOM,GPU使用率100%而且非常慢等。 Liger Kernel 是专为 LLM 训练设计的 Triton 内核集合。它可以有效地将多 GPU训练吞吐量提高 20% ,并将 内存使用量降低 60%。 Liger Kernel 为什么选择Triton: -Triton编程更简单: 比 CUDA 更快地完成内核开发。 -用 Numpy 思考: 用vector(块)而不是Element(线程)思考。 -与 AI 研究人员的协作更简单: AI 研究人员可以轻松掌握和扩展。 -Python 原生: 一个内核不需要五种不同的文件类型。 -干净的依赖关系: Triton 在大多数情况下都可以正常工作。 项目地址: https://github.com/linkedin/Liger-Kernel 使用 Liger Kernel 增强模型 只需如上的一行代码,Liger Kernel 就能将吞吐量提高 20% 以上,并将内存使用量降低 60%,从而实现更长的上下文长度、更大的批次大小和
………………………………