今天看啥  ›  专栏  ›  机器之心

FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎

机器之心  · 公众号  · AI  · 2025-03-14 11:44
    

文章预览

机器之心原创 作者:闻菲、张倩 「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。 随着 DeepSeek 引燃市场对于大模型私有化部署的热情,模型部署的效率与成本成为企业 AI 落地的关键瓶颈。   今天,清华系科创企业 清程极智 与 清华大学翟季冬教授团队 联合宣布 开源大模型推理引擎「赤兔」(Chitu) ,率先实现了 非 H 卡设备 (英伟达 Hopper 架构之前的 GPU 卡及各类国产卡) 运行原生 FP8 模型的突破 。 在 A800 集群上的实测数据显示,用赤兔引擎部署 DeepSeek-671B 满血版推理服务,相比于 vLLM 部署方案,不仅 使用的 GPU 数量减少了 50% ,而且 输出速度还提升了 3.15 倍 。   赤兔引擎代码已发布至 GitHub 开源社区: https://github.com/thu-pacman/chitu   赤兔 (Chitu) 开源: 国产大模型基础设施又一里程碑 当前,拥有完整自主可控的 AI 技术 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览