报警历史

报警历史页面承载了基线的相关报警数据,包括“基线报警”和“基线关联实例失败”报警。

如下图,为报警历史页面:

“报警历史” - 图1 2021-07-15-20-34-46.png

系统检测到基线预计完成时间超过预警时间或破线时间时,会发送报警类型为“基线报警”的通知,给到基线所属值班人员。基线上的任务或上游未挂载在基线上的任务,如果实例运行失败或终止,会发送报警类型为“基线关联实例失败”的报警,给到所有受影响的基线的所属值班人员。

对于“基线报警”,如果在基线报警最小间隔时间之外,系统发现基线的预计完成时间仍然会超过基线的预警时间或破线时间,则系统会触发新的一条基线报警,直到基线完成或到达第三天。因此同一条基线的“基线报警”可能会反复发送。如果用户认为当前延迟不可避免,又想减少报警,可在基线运维中对基线配置“免扰设置”。

对于“基线关联实例失败”报警,一旦实例失败就会报警,只要实例没有重跑成功的实例或值班人员执行响应操作,则系统会基于老的报警再次做提醒。因此其提醒次数可能会逐渐增加。

在操作上,当日值班人员可对电话报警进行“响应”,并得到响应时间。响应的数据会在“周期实例大盘”的“值班运维概况”中提醒。进行“响应”后,系统会有快捷跳转功能,前往周期实例运维列表也筛选出具体的实例,或者前往基线诊断页面,让值班人员更快进行问题排查。

如下图,为报警响应之后,显示响应数据:

“报警历史” - 图3 2021-07-15-20-33-52.png