文章预览
背景 项目背景 Feature 服务作为特征服务,产出特征数据供上游业务使用。 服务压力:高峰期 API 模块 10wQPS,计算模块 20wQPS。 服务本地缓存机制: 计算模块有本地缓存,且命中率较高,最高可达 50% 左右; 计算模块本地缓存在每分钟第 0 秒会全部失效,而在此时流量会全部击穿至下游 Codis; Codis 中 Key 名 = 特征名 + 地理格子 Id + 分钟级时间串; Feature 服务模块图 面对问题 服务 API 侧存在较严重的 P99 耗时毛刺问题(固定出现在每分钟第 0-10s),导致上游服务的访问错误率达到 1‰ 以上,影响到业务指标; 目标:解决耗时毛刺问题,将 P99 耗时整体优化至 15ms 以下; API 模块返回上游 P99 耗时图 解决方案 服务 CPU 优化 背景 偶然的一次上线变动中,发现对 Feature 服务来说 CPU 的使用率的高低会较大程度
………………………………