专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
目录
相关文章推荐
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

基于 NVIDIA TensorRT-LLM 的大语言模型调度方法

吃果冻不吐果冻皮  · 公众号  ·  · 2024-08-26 11:55
    

文章预览

【点击】 加入大模型技术交流群 大语言模型调度(LLM scheduling)是优化大语言模型(LLM)推理性能的关键技术,对提高资源利用率和降低延迟至关重要。然而,LLM 调度面临诸多挑战:模型规模庞大、计算需求动态变化、任务要求多样、硬件资源有限等。有效的 LLM 调度需要综合考虑模型特性、硬件能力和应用需求,是一个复杂的多目标优化问题。 为应对这些挑战,NVIDIA 提供的 LLM 推理加速库  TensorRT-LLM  对 In-flight Batching, StreamingLLM,投机采样(draft-model 和 Medusa),P/D 分离等先进部署优化技术进行了实现。 SOTA LLM 的 API 定价与技术优化 图 1. SOTA LLM 的 API 定价与技术优化 定价概览 当前 SOTA(State-of-the-Art)LLM 的 API 定价参差不齐,如图一左侧【1】所示,涵盖国内外各商业公司大部分稠密和稀疏的 LLM。例如,DeepSeek-V2 模型,其每百万 token 的输入和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览