报警历史页面承载了基线的相关的报警数据,包括任务失败/超时节点失败/超时数据质量监控异常/检测失败基线报警-预警基线报警-预计破线基线报警-已破线基线关联实例失败报警。

下图为报警历史页面:
报警历史 - 图1

基线报警-预警、基线报警-预计破线和基线报警-已破线是基线报警的细分,具体定义如下:

报警类型 描述
基线报警-预警 预计基线上任务实例的完成时间超过基线设置的预警时间,但是不超过破线时间,此时触发基线报警状态为预警。
基线报警-预计破线 预计基线上任务实例的完成时间超过基线设置的破线时间,此时触发基线报警状态为预计破线。
基线报警-已破线 基线上任务实例的实际完成时间已超过破线时间,此时触发基线报警状态为已破线。
基线报警-关联实例失败 基线上的任务或上游未挂载在基线上的任务,如果实例运行失败或终止,此时会触发基线关联实例失败。
基线报警-基线关联实例运行变慢 基挂载在当前基线上的任务和所有上游依赖任务对应的异常实例运行变慢,如果实例运行超过平均运行时长N%(N%参考下方补充说明)且运行时长超过30分钟,会触发报警。(基线每隔10分钟计算一次)
补充说明:
基线关联实例运行变慢报警主要应对如下两种场景:
场景一:直接挂载在基线上的任务一旦开始运行,由于基线无法判断其结束之间,就会认为该任务不会导致基线告警,但实际上任务仍可能延迟产出;
场景二:上游任务运行变慢,根据基线计算规则若下游任务按时产出,则不会产生基线报警,但若下游任务也延迟产出,则存在告警风险,需要能够将上游延迟产出的风险通过弱通知告知用户,因此增加运行变慢告警。
当前,平台默认关闭基线关联实例运行变慢报警,需要使用请联系运维人员。
关于平均运行时长超时比例N参考如下:
平均运行时长min 超时比例N
(0,10] 200%
(10,60] 60%
(60,120] 40%
(120,180] 20%
(180,∞) 10%

基线报警

对于基线报警,如果在基线报警最小间隔时间之外,系统发现基线的预计完成时间仍然会超过基线的预警时间或破线时间,则系统会触发新的一条基线报警,直到基线完成或到达第三天。因此同一条基线的“基线报警”可能会反复发送。如果用户认为当前延迟不可避免,又想减少报警,可在基线运维中对基线配置免扰设置

基线关联实例失败

对于基线关联实例失败报警,一旦实例失败就会报警,只要没有产生成功的实例或值班人员执行响应操作,则系统会基于老的报警再次做提醒。因此其提醒次数可能会逐渐增加。

报警响应

在操作上,当日值班人员可对报警进行响应,响应信息会反馈到报警响应信息中,显示响应速度以及响应时间。响应的数据会在周期实例大盘值班运维概况中提醒。进行响应后,系统会有快捷跳转功能,前往周期实例运维列表也筛选出具体的实例,或者前往基线诊断页面,让值班人员更快进行问题排查。

下图为报警响应之后显示的响应数据:
报警历史 - 图2

如果报警响应状态处于未响应,点击详情可查看报警详情。
报警历史 - 图3

报警详情中展示报警发送明细,如果状态为发送失败可通过图标报警历史 - 图4查看原因。通常发送失败的原因包括:手机号有误、邮箱有误、人员离职等。
报警历史 - 图5

项目组报警历史

在报警历史页面的右上角存在查看项目组报警历史按钮,通过点击该按钮可跳转至项目组报警历史页面。
报警历史 - 图6

在该页面中可查看当前项目组下所有项目的报警历史。
报警历史 - 图7