文章预览
【点击】 加入大模型技术交流群 大语言模型调度(LLM scheduling)是优化大语言模型(LLM)推理性能的关键技术,对提高资源利用率和降低延迟至关重要。然而,LLM 调度面临诸多挑战:模型规模庞大、计算需求动态变化、任务要求多样、硬件资源有限等。有效的 LLM 调度需要综合考虑模型特性、硬件能力和应用需求,是一个复杂的多目标优化问题。 为应对这些挑战,NVIDIA 提供的 LLM 推理加速库 TensorRT-LLM 对 In-flight Batching, StreamingLLM,投机采样(draft-model 和 Medusa),P/D 分离等先进部署优化技术进行了实现。 SOTA LLM 的 API 定价与技术优化 图 1. SOTA LLM 的 API 定价与技术优化 定价概览 当前 SOTA(State-of-the-Art)LLM 的 API 定价参差不齐,如图一左侧【1】所示,涵盖国内外各商业公司大部分稠密和稀疏的 LLM。例如,DeepSeek-V2 模型,其每百万 token 的输入和
………………………………