主要观点总结
本文介绍了朴朴科技平台对APM(应用性能管理)进行的头部采样实践,通过头部采样降低了上报数据量,从而降低了IT成本并提高了查询性能。文章详细描述了头部采样的背景、挑战、实践、成果以及未来的技术规划和展望。
关键观点总结
关键观点1: 背景
随着业务增长,朴朴APM面临成本高昂和查询性能下降的问题。为了降低成本并提高效率,进行了两项重大优化成本的措施:将APM的存储从Elasticsearch替换为ClickHouse,并考虑进行头部采样。
关键观点2: 头部采样的挑战
传统的头部采样方案无法保证链路的完整性,无法满足用户对异常、慢查询和核心链路完整性的需求。因此,朴朴科技决定自研一套即能够有效进行头部采样又能够不影响用户对链路完整性的需求的技术方案。
关键观点3: 朴朴APM头部采样实践
通过对海量的span数据进行分析,找到了规律,并设计了采样规则设置和采样策略设置。同时,为了保障链路的完整性,进行了头部采样染色设计。
关键观点4: 成果
通过上线头部采样系统,朴朴APM实现了每日上报数据量减半,降低了ClickHouse、Kafka和分析集群的机器数量,实现了用户功能基本不受影响但总成本减半的成果。
关键观点5: 总结与展望
好的头部采样能够极大减少机器成本并提高查询性能。未来,朴朴科技计划进一步提高系统的采样丢弃比例,从而进一步降低APM成本。
文章预览
作者 | 朴朴科技平台组
一、背景
随着朴朴业务的迅猛增长,朴朴全面拥抱微服务、云原生和容器技术。在云原生可观测性方面,朴朴几乎所有的微服务都接入了朴朴 APM,以帮助开发者快速定位、分析和诊断问题。然而,随着业务复杂度和服务数量的不断增加,上报给朴朴 APM 的数据量也急剧增加,导致 IT 成本越来越高,同时用户查询 APM 的性能也急剧下降。 为了响应公司的降本增效的理念,我们将朴朴 APM 的存储从 Elasticsearch 替换为 ClickHouse,使得同样性能下,将存储成本降低三分之二,可参考文献《存 储成本降低 80%,查询效率提升 5 倍,朴朴 APM 链路采样实战 》;考虑到历史数据的存储能否只存储对用户有意义的数据,我们进行了 T+1 尾采样,使得存储成本进一步降低且查询速度更快,可参考文献《 存储成本降低 80%,查询效率提升 5 倍
………………………………