专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
今天看啥  ›  专栏  ›  企业存储技术

解锁DeepSeek-R1 671B FP8推理性能:5,921 token/s @ AMD MI300X

企业存储技术  · 公众号  ·  · 2025-02-27 07:40
    

文章预览

本文编译自 https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html 在本博客中,我们探讨了 DeepSeek-R1 如何在 AMD Instinct™ MI300X GPU 上实现竞争性能,以及与 H200 的性能比较和一个展示实际使用情况的简短演示应用程序。通过利用 MI300X,用户可以在单个节点上以令人印象深刻的效率部署 DeepSeek-R1 和 V3 模型。在短短两周内,使用 SGLang 进行的优化已将推理速度提高了 4 倍,确保了高效的扩展、更低的延迟和优化的吞吐量。MI300X 的高带宽内存 (HBM) 和计算能力支持执行复杂的 AI 工作负载,处理更长的序列和要求苛刻的推理任务。随着 AMD 和 SGLang 社区推动持续优化(包括融合的 MoE 内核、MLA 内核融合和推测解码),MI300X 将提供更强大的 AI 推理体验。 概览 DeepSeek-R1 因其深度推理能力而受到广泛关注,在语言建模性能基准测试中可与顶级闭源模型相 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览