专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
今天看啥  ›  专栏  ›  极市平台

GTX 4090 的 cuda graph 诡异

极市平台  · 公众号  ·  · 2024-12-17 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨BBuf 来源丨GiantPandaCV 编辑丨极市平台 极市导读   本文分析了在GTX 4090显卡上进行深度学习模型推理时CUDA Graph的使用效果,发现在大多数情况下开启CUDA Graph对性能没有提升,仅在特定的并行配置下(如TP4/TP8)才有必要。作者通过实验比较了不同模型和配置下的性能差异,并探讨了可能的原因。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 0x0. 前言 今天聊一个最近有趣的发现,那就是模型推理时是否应该在 GTX 4090 上开启 cuda graph ?在 GTX 4090 上用推理框架如VLLM/SGLang等,什么情况下才应该开启 CUDA Graph?目前只能说一下我的观察过程和结论,背后可能的原因也请大佬不吝赐教。 0x1. 问题发生的背景 某天,我想看一下在 GTX 4090 单卡情况下使用VLLM和Qwen2-7B时离线推理一个 prompt 的时候相比于 HuggingFace 原始的推 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览