文章预览
8月29日消息,英伟达发布了其 Blackwell B200芯片首个MLPerf Inference 4.1测试(在Llama 2 70B大模型上)结果,显示B200的性能是达到了上一代的Hopper H100的4倍,即性能提升了300%。与此同时,AMD也公布了8个MI300X GPU在相同测试中的成绩,达到了与英伟达DGX H100(集成了8个H100)相当的成绩。这也凸显了英伟达在AI芯片市场领导地位。 具体来说,单个英伟达Blackwell B200 GPU 在AI推理测试中,可以每秒生成 10,755 个Token,在离线参考测试中可以每秒生成11,264 个Token。作为对比,虽然基于4个Hopper H100 GPU的服务器提供了接近的结果,但是单个H00 GPU每秒生成的Token数仅有B200 GPU的约1/4。这也证明了英伟达的说法,即单个Blackwell B200 GPU的速度达到了单个Hopper H100 GPU 的约3.7至4倍。但我们需要剖析这些数字以更好地理解它们。 首先,英伟达的Blackwell B200 处理器使用的是 FP4 精度,
………………………………