文章预览
构建智能运维平台,运行监控和故障报警是两个绕不过去的重要部分。本次分享主要是数人云工程师介绍引入 SRE 理念后的基于时间序列数据存储的报警工程实践。 SRE 报警介绍 今天我分享的主题是 SRE 基于时间序列数据的报警实践,既然是基于时间序列。 首先,我先简单介绍一下什么是时间序列数据。 时间序列( time series )数据是一系列有序的数据。通常是等时间间隔的采样数据。时间序列存储最简单的定义就是数据格式里包含 timestamp 字段的数据。时间序列数据在查询时,对于时间序列总是会带上一个时间范围去过滤数据。同时查询的结果里也总是会包含 timestamp 字段。 监控数据大量呈现为时间序列数据特征,所以,为了应对复杂的监控数据格式,在每一份数据
………………………………