再来谈谈大模型的分离式推理架构

zartbot · 公众号 · · 2024-07-06 08:52

文章预览

知乎上看到方佳瑞博士的一篇文章《LLM分离式推理可能带来的软硬件变革的迷思》 [1] 恰逢这周工作上有一些和HugeCTR相关的事情, 那么就从软硬件一体化的视角来阐述一下整个架构的演进, 特别是在分离式推理架构上. 以下观点仅代表个人,和作者任职机构无关. 1. 推理系统和训练系统的区别最简单的一句话是: 推理系统没有所谓的DP并行. 背后隐藏的一个含义是两个系统的Workload是完全不一样的. 1.1 训练系统到达速率和服务速率为确定性分布在训练系统中数据以Batch的方式到达, 然后计算时间也相对确定, 一方面是因为backward过程的同步需求, 另一方面是训练语料本身有长短的分布但也做了Padding, 当然可以通过一些技术对Padding进行优化提升计算效率. 1.2 推理系统到达速率假设为泊松分布, 服务速率受实现方式和服务策略影响推荐系统请求到达的分布假 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博