|
[KV Cache优化]MQA/GQA/YOCO/CLA笔记: 层内和层间KV Cache共享 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
Huggingface CEO:阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
大模型的一些爽点和判断 GiantPandaCV · 公众号 · 3D · 5 月前 · 访问文章快照 |
|
MLIR_对自定义IR Dialect编写bufferization pass GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
NVIDIA Nemotron-4 340B 开源技术报告(二) | 你想要的都在这里 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
NVIDIA Nemotron-4 340B 开源技术报告 | 你想要的都在这里 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
NVIDIA Nemotron-4 340B 开源技术报告(三) | 你想要的都在这里 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
窥探Triton的lower(二) GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
窥探Trition的lower(一) GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
FP8量化解读--8bit下最优方案?(一) GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
如何使用“LoRa”的方式加载ONNX模型:StableDiffusion相关模型 的C++推理 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
TransformerEngine代码走读 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
大模型KV Cache节省神器MLA学习笔记(包含推理时的矩阵吸收分析) GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
60行代码加速20倍 NEON实现深度学习OD任务后处理绘框 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
从啥也不会到Cuda GEMM优化 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
[Prefill优化]图解vLLM Prefix Prefill Triton Kernel GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
大模型人才今年的薪资。。。 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
GPTQ & SmoothQuant & AWQ 代码解析 GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
vAttention:用于在没有Paged Attention的情况下Serving LLM GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |
|
GQA,MLA之外的另一种KV Cache压缩方式:动态内存压缩(DMC) GiantPandaCV · 公众号 · 3D · 6 月前 · 访问文章快照 |