专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
AI前线  ·  民间大神魔改4090 ... ·  17 小时前  
今天看啥  ›  专栏  ›  新智元

英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

新智元  · 公众号  · AI  · 2025-02-26 16:58
    

文章预览

   新智元报道   编辑:好困 犀牛 【新智元导读】 最近,英 伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,和每token成本降低20倍的惊人成果。 同时,DeepSeek连续开源多个英伟达GPU优化项目,共同探索模型性能极限。 当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花? 答案是:推理性能暴涨25倍,成本狂降20倍! 随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。 在新模型的加持下,B200实现了高达21,088 token每秒的的推理吞吐量,相比于H100的844 token每秒,提升了25倍。 与此同时,每token的成本也实现了20倍的降低。 通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4生产级精度的模型,在MMLU通用智能基准测试中达到了FP8模型性能的99.8%。 DeepSe ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览