最近热门专栏推荐
最近热门专栏推荐
文章总数 400  • 
今天看啥 › 主题  ›  3D
【ml-engineering 翻译系列】计算加速器之gpu 审核中
GiantPandaCV  ·  公众号  · 3D  ·  3 天前  ·  访问文章快照
图解OpenRLHF中基于Ray的分布式训练流程 审核中
GiantPandaCV  ·  公众号  · 3D  ·  5 天前  ·  访问文章快照
GTX 4090 的 cuda graph 诡异
GiantPandaCV  ·  公众号  · 3D  ·  1 周前  ·  访问文章快照
PyTorch 通讯实践 审核失败
GiantPandaCV  ·  公众号  · 3D  ·  1 周前  ·  访问文章快照
CUDA-MODE 课程笔记 第29课 Triton内部机制 审核中
GiantPandaCV  ·  公众号  · 3D  ·  1 周前  ·  访问文章快照
ModelServer:基于 SGLang 的前端分发系统 审核中
GiantPandaCV  ·  公众号  · 3D  ·  2 周前  ·  访问文章快照
RMSNorm的精度陷阱:记一次LLM推理精度调查 审核中
GiantPandaCV  ·  公众号  · 3D  ·  2 周前  ·  访问文章快照
图解大模型训练系列:序列并行4,Megatron Context Parallel 审核中
GiantPandaCV  ·  公众号  · 3D  ·  2 周前  ·  访问文章快照
CUDA-MODE 课程笔记 第28课 用在生产环境中的LinkedIn Liger kernel 审核中
GiantPandaCV  ·  公众号  · 3D  ·  3 周前  ·  访问文章快照
GPU 矩阵乘实际可达最大FLOPS测量工具 审核中
GiantPandaCV  ·  公众号  · 3D  ·  3 周前  ·  访问文章快照
强推理模型书生InternThinker开放体验:自主生成高智力密度数据、具备元动作思考能力|通专融合探索新进展 审核中
GiantPandaCV  ·  公众号  · 3D  ·  3 周前  ·  访问文章快照
NCCL 与 NVIDIA TOPO 审核中
GiantPandaCV  ·  公众号  · 3D  ·  3 周前  ·  访问文章快照
基于 chunked prefill 理解 prefill 和 decode 的计算特性 审核中
GiantPandaCV  ·  公众号  · 3D  ·  3 周前  ·  访问文章快照
CUDA-MODE课程笔记 Lecture 16 通过CUDA C++核心库把llm.c移植为llm.cpp 审核中
GiantPandaCV  ·  公众号  · 3D  ·  4 周前  ·  访问文章快照