文章预览
多云多活,这个在很多的场景、公司里都是很期望能实现的架构,但由于实现的复杂度,投入的改造量大,基本上真正能落地的实现的公司非常非常的少,但在AI的场景里,则完全不一样,要做到多云多活的架构并没有那么的难,这篇文章来讲讲AI的多云多活架构。 AI在技术上主要分为训练和推理两大场景,训练可以认为是一个偏离线型的场景,对于需要做基模训练的极少数的公司,这个场景要解决的核心问题是万卡以上规模的分布式并行计算的问题,对网络的要求非常高,基本上不可能多云,另外又是偏离线的场景,其实也没有太大必要,当然,如果Scaling Law还存在的话,那多数据中心的训练估计还是迟早得要解决的问题。 推理则是把AI真正投入生产,转为在线型业务提供服务的场景,推理是一个常态的在线型服务,基本跟着业务量会比较成比例
………………………………