为何alertmanager集群突然频繁发出resolve消息,原因分析?
- 内容介绍
- 文章标签
- 相关推荐
本文共计4749个文字,预计阅读时间需要19分钟。
Alertmanager集群命名发送resolve消息的问题探究:报警+报警恢复+报警信息:显示一条报警+显示一条报警恢复+显示报警相关信息,包括报警和报警恢复+问题描述+最近遭遇
alertmanager集群莫名发送resolve消息的问题探究 术语- 告警消息:指一条告警
- 告警恢复消息:指一条告警恢复
- 告警信息:指告警相关的内容,包括告警消息和告警恢复消息
最近遇到了一个alertmanager HA集群莫名发送告警恢复消息的问题。简单来说就是线上配置了一个一直会产生告警的规则,但却会收到alertmanager发来的告警恢复消息,与预期不符。
所使用的告警架构如下,vmalert产生的告警会通过LB发送到某个后端alertmanager实例。原本以为,接收到该告警的alertmanager会将告警信息同步到其他实例,当vmalert产生下一个相同的告警后,则alertmanager实例中的第二个告警会刷新第一个告警,后续通过告警同步将最新的告警发送到各个alertmanager实例,从而达到抑制告警和抑制告警恢复的效果(。
但在实际中发现,alertmanager对一直产生的告警发出了告警恢复消息。
问题解决问题解决办法很简单:让告警直接发送到alertmanager HA集群的每个实例即可。
在Question regarding Loadbalanced Alertmanager Clusters和Alerting issues with Alertmanage这两篇文档中描述了使用LB导致alertmanager HA集群发生告警混乱的问题。
本文共计4749个文字,预计阅读时间需要19分钟。
Alertmanager集群命名发送resolve消息的问题探究:报警+报警恢复+报警信息:显示一条报警+显示一条报警恢复+显示报警相关信息,包括报警和报警恢复+问题描述+最近遭遇
alertmanager集群莫名发送resolve消息的问题探究 术语- 告警消息:指一条告警
- 告警恢复消息:指一条告警恢复
- 告警信息:指告警相关的内容,包括告警消息和告警恢复消息
最近遇到了一个alertmanager HA集群莫名发送告警恢复消息的问题。简单来说就是线上配置了一个一直会产生告警的规则,但却会收到alertmanager发来的告警恢复消息,与预期不符。
所使用的告警架构如下,vmalert产生的告警会通过LB发送到某个后端alertmanager实例。原本以为,接收到该告警的alertmanager会将告警信息同步到其他实例,当vmalert产生下一个相同的告警后,则alertmanager实例中的第二个告警会刷新第一个告警,后续通过告警同步将最新的告警发送到各个alertmanager实例,从而达到抑制告警和抑制告警恢复的效果(。
但在实际中发现,alertmanager对一直产生的告警发出了告警恢复消息。
问题解决问题解决办法很简单:让告警直接发送到alertmanager HA集群的每个实例即可。
在Question regarding Loadbalanced Alertmanager Clusters和Alerting issues with Alertmanage这两篇文档中描述了使用LB导致alertmanager HA集群发生告警混乱的问题。

