专栏名称: 阿里云云原生
发布云原生技术最新资讯、汇集云原生技术最全内容,定期举办云原生活动、直播,阿里产品及用户最佳实践发布。与你并肩探索云原生技术点滴,分享你需要的云原生内容。
今天看啥  ›  专栏  ›  阿里云云原生

基于 KServe on ASM 搭建 TensorRT-LLM 优化的大语言模型推理服务

阿里云云原生  · 公众号  ·  · 2024-06-29 09:00

文章预览

背景信息 Cloud Native KServe(原 KFServing)是云原生环境的一个模型服务器和推理引擎,具备自动缩放、零缩放和金丝雀部署等能力,为云原生的大规模机器学习和深度学习模型服务提供了基础。 通过与 mlserver、Tensorflow Serving、Triton、TorchSerive 等多种机器学习模型推理服务运行时的集成,KServe 中可以运行基于 Pytorch、Tensorflow、XGBoost 等多种机器学习框架开发的模型,并通过统一的API对外暴露成模型推理服务。 阿里云服务网格 ASM 在集成容器服务 Knative Serving 能力的基础上,支持一键集成 KServe 的 KServe on ASM 能力,提供 Serverless 方式部署的 AI 模型推理服务,通过 ASM 集成 KServe,开发人员可以在云原生应用程序中快速部署和管理机器学习模型的推理服务,减少手动配置和维护的工作量,提高开发效率。 TensorRT-LLM 是一个易于使用的 Python API,用于定义大型语 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览