|
审核中 GiantPandaLLM · 公众号 · 3D · 3 月前 · 访问文章快照 |
|
[分布式训练与TorchTitan] PyTorch中的Async Tensor Parallelism介绍 GiantPandaLLM · 公众号 · 3D · 3 月前 · 访问文章快照 |
|
使用torchtune把LLaMa-3.1 8B蒸馏为1B GiantPandaLLM · 公众号 · 3D · 3 月前 · 访问文章快照 |
|
图解Megatron TP中的计算通信overlap GiantPandaLLM · 公众号 · 3D · 3 月前 · 访问文章快照 |
|
将Diffusion模型的推理速度提升了8倍,顺利拿到6家企业offer GiantPandaLLM · 公众号 · 3D · 3 月前 · 访问文章快照 |
|
让预训练 Transformer 生成更长的文本/图像:位置编码长度外推技术 GiantPandaLLM · 公众号 · 3D · 3 月前 · 访问文章快照 |
|
审核中 GiantPandaLLM · 公众号 · 3D · 3 月前 · 访问文章快照 |
|
CUDA-MODE课程笔记 第17课 GPU集合通信(NCCL) GiantPandaLLM · 公众号 · 3D · 3 月前 · 访问文章快照 |
|
审核中 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
NIPS 2024 最佳论文 VAR 深度解读:下一尺度预测为何能超越扩散模型? GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
审核中 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
审核中 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
图解OpenRLHF中基于Ray的分布式训练流程 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
GTX 4090 的 cuda graph 诡异 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
审核失败 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
CUDA-MODE 课程笔记 第29课 Triton内部机制 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
ModelServer:基于 SGLang 的前端分发系统 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
如何正确理解NVIDIA GPU利用率的概念 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
审核中 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |
|
审核中 GiantPandaLLM · 公众号 · 3D · 4 月前 · 访问文章快照 |