文章预览
知乎上看到方佳瑞博士的一篇文章 《LLM分离式推理可能带来的软硬件变革的迷思》 [1] 恰逢这周工作上有一些和HugeCTR相关的事情, 那么就从软硬件一体化的视角来阐述一下整个架构的演进, 特别是在分离式推理架构上. 以下观点仅代表个人,和作者任职机构无关. 1. 推理系统和训练系统的区别 最简单的一句话是: 推理系统没有所谓的DP并行. 背后隐藏的一个含义是两个系统的Workload是完全不一样的. 1.1 训练系统 到达速率和服务速率为确定性分布 在训练系统中数据以Batch的方式到达, 然后计算时间也相对确定, 一方面是因为backward过程的同步需求, 另一方面是训练语料本身有长短的分布但也做了Padding, 当然可以通过一些技术对Padding进行优化提升计算效率. 1.2 推理系统 到达速率假设为泊松分布, 服务速率受实现方式和服务策略影响 推荐系统请求到达的分布假
………………………………