告警规则引擎服务概述

1. 什么是规则引擎

规则引擎是一种嵌套在应用程序种的组件,它实现了将业务规则从应用程序代码中分离出来,
使复杂的业务规则实现变得简单,也可以动态修改业务规则,从而快速的响应需求变更。


image.png

2. 常见报警规则设计

2.1 Cat

基本逻辑流程

  1. 查询当前告警类型配置的所有告警规则
  2. 每间隔一分钟,取对应类型的报表,如果transaction类型的告警,就取transaction类型的报表,event类型的,就取event类型的报表,根据报表里面的duration(key=当前分钟,value=生成的次数)去校验是否触发告警规则,如果触发,则返回告警实例。
  3. 将上一步返回的告警实例,插入到AlertMananger内部队列里
  4. AlertManager 异步线程消费告警实例。根据类型、分组、级别(warn、error)查询对应的发送通道(email、sms、weixin),无论发送成功与否,都要写入数据库。(这里没有记录发送成功与否的状态,算是个bug)
image.png

2.2 Open-Falcon

image.png

transfer,接收客户端发送的数据,做一些数据规整,检查之后,转发到多个后端系统去处理。在转发到每个后端业务系统的时候,transfer会根据一致性hash算法,进行数据分片,来达到后端业务系统的水平扩展。

报警判定,是由judge组件来完成。用户在web portal来配置相关的报警策略,存储在MySQL中。heartbeat server 会定期加载MySQL中的内容。judge也会定期和heartbeat server保持沟通,来获取相关的报警策略。

heartbeat sever不仅仅是单纯的加载MySQL中的内容,根据模板继承、模板项覆盖、报警动作覆盖、模板和hostGroup绑定,计算出最终关联到每个endpoint的告警策略,提供给judge组件来使用。

transfer转发到judge的每条数据,都会触发相关策略的判定,来决定是否满足报警条件,如果满足条件,则会发送给alarm,alarm再以邮件、短信、米聊等形式通知相关用户,也可以执行用户预先配置好的callback地址。

用户可以很灵活的来配置告警判定策略,比如连续n次都满足条件、连续n次的最大值满足条件、不同的时间段不同的阈值、如果处于维护周期内则忽略 等等。

另外也支持突升突降类的判定和告警。

2.3 滴滴夜莺

告警资料 https://www.bookstack.cn/read/Nightingale/3972cc67c6123806.md

image.png

https://s3-gz01.didistatic.com/n9e-pub/video/n9e-arch-intro.mp4

  • collector 即 agent,可以采集机器常见指标,原生支持日志监控,支持插件机制,支持业务通过接口直接上报数据;

  • transfer提供 rpc 接口接收 collector 上报的数据,然后通过一致性哈希,将数据转发给多台tsdb和多台judge;

  • tsdb 即 open-falcon 中的 graph 组件,用于存储历史数据,支持配置为双写模式提升系统容灾能力,tsdb 会把监控数据转发一份给 index 建索引;

  • index 是内存索引模块,替换原来的 mysql 方案,在内存里构建索引,便于后续数据检索,在检索的灵活性和检索性能方面大幅提升;

  • judge 是告警引擎,从 monapi(portal) 同步监控策略,然后对接收到的数据做告警判断,如满足阈值,则生成告警事件推送到 redis 队列;

  • monapi(alarm) 从 redis 队列中读取 judge 生成的事件,进行二次处理,补充一些元信息,生成告警消息,重新推送回 redis 队列;

  • 各发送组件,比如 mail-sender、sms-sender 等,从 redis 读取告警消息,发送告警,抽象出各类 sender 是为了后续定制方便;

  • monapi 集成了原来多个模块的功能,提供接口给 js 调用,api 前缀为 /api/portal,数据查询走 transfer,去除了 open-falcon 中原来的 query 组件,api 前缀为 /api/transfer,索引查询的 api 前缀 /api/index,于是,在前端统一搭建 nginx,即可通过不同 location 将请求转发到不同后端;

  • 数据库仍然使用 MySQL,主要存储的内容包括:用户信息、团队信息、树节点信息、告警策略、监控大盘、屏蔽策略、采集策略、部分组件心跳信息等。

对比:Nightingale与Open-Falcon---->告警引擎重构

  • Open-Falcon 的告警策略,在监控数据推送上来的同时会触发策略判断,这种「推」的模式优势是策略的判断时效性非常高,但是不利于更高级的告警策略的支持和扩展,比如多条件的组合报警就很难支持。
  • Nightingale 转为推拉结合模式,通过推模式保证大部分策略判断的效率,通过拉模式支持了与条件告警和nodata告警;

2.4 prometheus

https://www.jianshu.com/p/af0f98fe7699

image.png
image.png

prometheus一次alert流程 主要包括告警阈值触发、分组(group)、抑制(inhibitor) 、Silencer(静默)、 重复告警延时(Dedup)等。

2.4.1 告警

Prometheus以scrape_interval(默认为1m)规则周期,从监控目标上收集信息。其中scrape_interval可以基于全局或基于单个metric定义;然后将监控信息持久存储在其本地存储上。

Prometheus以evaluation_interval(默认为1m)另一个独立的规则周期,对告警规则做定期计算。其中evaluation_interval只有全局值;然后更新告警状态。

其中包含三种告警状态:

  • inactive:没有触发阈值

  • pending:已触发阈值但未满足告警持续时间

  • firing:已触发阈值且满足告警持续时间

image.png
  1. Prometheus以5s(scrape_interval)一个采集周期采集状态;
  2. 然后根据采集到状态按照10s(evaluation_interval)一个计算周期,计算表达式;
  3. 表达式为真,告警状态切换到pending;
  4. 下个计算周期,表达式仍为真,且符合for持续10s,告警状态变更为active,并将告警从Prometheus发送给Altermanger;
  5. 下个计算周期,表达式仍为真,且符合for持续10s,持续告警给Altermanger;
  6. 直到某个计算周期,表达式为假,告警状态变更为inactive,发送一个resolve给Altermanger,说明此告警已解决。

2.4.2 告警分组、抑制、静默

告警发送给了Altermanger,但是Altermanger并不是把一条从Prometheus接收到的告警简简单单的直接发送出去;直接发送出去会导致告警信息过多,运维人员会被告警淹没;所以Altermanger需要对告警做合理的收敛

2.4.2.1 告警分组的作用

 同类告警的聚合帮助运维排查问题

 通过告警邮件的合并,减少告警数量

2.4.2.2 告警抑制的作用

消除冗余的告警

2.4.2.1 告警静默的作用

阻止发送可预期的告警

2.4.3 告警延时

分组势必会带来延时;合理的配置延时,才能避免告警不及时的问题,同时帮助我们避免告警轰炸的问题

告警延时涉及的几个主要参数

   group_by:分组参数,比如按照[mysql-id]分组

   group_wait:分组等待时间,比如:5s

   group_interval:分组尝试再次发送告警的时间间隔,比如:5m

   Repeat_interval: 分组内发送相同告警的时间间隔,比如:60m
image.png
image.png
image.png

3. Skywalking与prometheus集成

image.png
  1. skywalking 将指标数据发送kafka
  2. 告警规则模块监听kafka指标数据,将指标数据转换为prometheus标准的数据写入prometheus target模块
  3. prometheus模块 从Gateway拉出指标数据,进行处理,
  4. 程序启动的时候加载默认告警规则,写入到prometheus AlertManager模块
  5. prometheus AlertManager 模块提供webhook回调地址,由告警规则模块接口控制消息告警
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,825评论 4 377
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,887评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,425评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,801评论 0 224
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,252评论 3 299
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,089评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,216评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 31,005评论 0 215
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,747评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,883评论 2 255
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,354评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,694评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,406评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,222评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,242评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,017评论 2 281

推荐阅读更多精彩内容