|
FP8 低精度训练:Transformer Engine 简析 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
图解大模型计算加速系列:vLLM源码解析3,Prefix Caching GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
CUDA-MODE 第一课课后实战(下) GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
CUDA-MODE课程笔记 第6课: 如何优化PyTorch中的优化器 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
实战Llama-3-70B RLHF-PPO训练耗时及成本 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
[LLM性能优化]聊聊长文本推理性能优化方向 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
超大模型加载转换Trick GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
CUDA-MODE 课程笔记 第四课: PMPP 书的第4-5章笔记 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
FlashAttention-3 发布!比FlashAttention-2 快 1.5-2.0 倍 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
AI时代进击的CPU们 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
审核失败 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
我爱DeepSpeed-Ulysses:重新审视大模型序列并行技术 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
图解大模型计算加速系列:分离式推理架构1,从DistServe谈起 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
CUDA-MODE 课程笔记 第二课: PMPP 书的第1-3章速通 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
CUDA-MODE 第一课课后实战(上) GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
审核失败 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
[LLM推理优化][4w字] TensorRT-LLM部署调优-指北 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
CUDA-MODE 课程笔记 第一课: 如何在 PyTorch 中 profile CUDA kernels GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
kimi chat大模型的200万长度无损上下文可能是如何做到的? GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
窥探Triton的lower(三) GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |