基线管理

任务运维支持基线运维方式,在使用基线运维之前,首先需要在“值班组管理”模块完成值班组的配置,然后再在“基线管理”模块进行基线配置。

如下图,为基线管理页面:

“基线管理” - 图1 2021-07-12-20-16-04.png

1 权限控制

基线管理入口在任务运维中心左下角“运维配置”中,仅项目负责人、管理员和具体值班组的负责人可访问。项目负责人、管理员可新增、编辑、关闭、删除所有基线,值班组负责人能查看所有基线。

2 功能概述

该页面主要用于基线设置,并归属到具体值班组。在“任务列表”页面(后文会进行说明)将任务挂载到基线上之后,每天线上调度的任务实例的执行就会被纳入基线的监控之中,符合报警条件时,就会发送报警给值班人员。

基线上有3个重要的时间,一个是预警时间,一个是破线时间,还有一个是报警最小间隔。破线时间一般需要体现在基线名称上,比如“数仓04点30分基线”,其破线时间就设置为04:30,该时间是基线上所有任务实例对下游的承诺产出时间;预警时间一般建议设置比破线时间早30分钟~60分钟,是基线预留的因前一日变更导致的基线整体延后产出时的余量;报警最小间隔是指触发基线报警时,异常未处理后重复报名的时间间隔。

3 报警功能说明

每天基线都会生成一个基线实例,并计算出基线上挂载的所有任务,系统会每隔几分钟推算所有任务实例的预计开始时间和结束时间。对于基线上的实例,如果预计结束时间时间超过破线时间,则会触发基线报警,根据基线配置的报警方式通知基线所属值班组的当日值班人员。如果预计结束时间超过预警时间,但是未超过破线时间,则也会触发基线报警。对于配置了电话报警方式的,电话会智能取消,但是短信和邮件依然会发送。此外,如果基线上任务的实例或上游任务的实例失败时,也会立即出发“基线关联实例失败”报警,通知所有受影响的基线的值班人员。

4 相关操作

对于基线,支持新增、编辑、删除。

4.1 新增基线

当前版本支持设置基线名称、基线优先级、预警时间、破线时间报警最小间隔、归属值班组、基线描述等。

“基线管理” - 图3 2021-07-12-20-17-25.png

上图中的部分术语见下方说明:

序号 术语 描述
1 基线优先级 表示基线的优先级,在基线设置时配置。目前仅用于提醒值班人员该条基线的重要程度。
2 预警时间 表示当前基线配置的预警时间线。当基线的任务实例预计完成时间超过“预警时间”,则会发送报警类型为“基线报警”的报警。如果有配置电话,则电话默认会智能取消。
3 破线时间 表示当前基线配置的破线时间线。当基线的任务实例预计完成时间超过“破线时间”,则会发送报警类型为“基线报警”的报警。如果有配置电话,则电话默认会正常拨打。
4 允许报警次数 表示当前基线允许的最大报警次数上限。
5 报警最小间隔 表示当前基线的两次基线报警的间隔。