基线运维

1 功能概述

在本产品的“产品概述”已经有较大篇幅多基线运维功能有了较多介绍,这里会更偏重页面的功能介绍。

在“运维配置”模块配置完值班组和基线,并将线上调度的任务挂载在基线上,则每日可在此监测基线的完成情况。支持通过“业务日期”筛选器查看对应日期的基线情况。

“基线运维”模块主要用户是值班组当日值班人员,需重点关注归属到本值班组的基线的相关信息。并且,注意接收电话、短信、邮件、企业微信、钉钉(看配置情况)的报警信息。目前,支持“基线报警”和“基线关联实例失败”报警两种。这两种报警表示什么含义,在后文说明,请先了解后续的一些概念。

在基线实例列表中,会展示基线优先级、基线的预警时间、破线时间、基线余量、预计完成时间、基线状态、破线时间未完成任务数、破线时间完成率、实际完成时间等。这些指标可协助值班人员了解基线任务的完成情况。对于某一条基线,支持进入查看基线诊断,支持设置免扰、支持查看相关报警。

如下图,为基线运维页面:

“基线运维” - 图1 2021-07-14-21-47-37.png

下面,分别对列表中的概念进行说明。

2 术语说明

下方表格为列表中相关列名称的说明:

序号 术语 描述
1 基线优先级 表示基线的优先级,在基线设置时配置。目前仅用于提醒值班人员该条基线的重要程度。
2 预警 指预警时间,表示当前基线配置的预警时间线。当基线的任务实例预计完成时间超过“预警时间”,则会发送报警类型为“基线报警”的报警。如果有配置电话,则电话默认会智能取消。
3 破线 指破线时间,表示当前基线配置的破线时间线。当基线的任务实例预计完成时间超过“破线时间”,则会发送报警类型为“基线报警”的报警。如果有配置电话,则电话默认会正常拨打。
4 余量 表示当前基线的预警时间减去预计完成时间的余量,所以会出现负数。
5 预计完成 指预计完成时间,表示当前基线上的任务实例,在今日预计完成的时间。该数据每几分钟计算一次。
6 基线状态 目前包括正常、预警、破线。预警,表示当基线的任务实例预计完成时间或实际完成时间超过“预警时间”。破线,表示当基线的任务实例预计完成时间或实际完成时间超过“破线时间”
7 基线挂载任务数 表示基线上挂载的任务数量。由于有任务基线调整、基线任务新增的场景,因此该指标可能会产生波动。对于该指标的统计原则是:已生成实例的,以生成时所挂载的基线为准,统计到对应的基线上;未生成实例的,取任务当前所挂在的基线为准。举例:任务A挂在3点基线,2点运行成功,在4点时挂到5点基线,则仅会在3点基线计算1个挂载任务数。当日15点新增任务A,计划执行时间是明天1点开始,挂在3点基线,则今日任务数不会计入。
8 未完成任务数 指基线上挂载的已调度的任务,对应的实例还未运行成功的任务数。括号中的数字,第一个表示已生成实例的任务(按照任务的实例生成时任务关联的基线来归属统计),如果任务对应的实例不全部为成功的,则会计1。注意,有些情况下可能会出现,显示的统计值和点击跳转之后看到明细数量不一致,因为这里是按照任务显示,但是跳转到的是按实例来查看。第二个表示任务还未生产实例,处于未就绪状态的。
9 任务完成率 指当前时刻基线任务中的实例已成功的任务比例(非实时)。
10 破线时间未完成任务数 按照任务的实例生成时任务关联的基线来计算,如果破线时间某个任务的实例不是全部成功的,则会计1。注意,有些情况下点击查看的清单中可能会明细的量和这里的统计值不一致的情况,清单中是按照实例展示,此处是按照任务来统计。该数值不为0时,可点击查看明细数据。
11 破线时间完成率 到达设置的破线时间时,基线任务中的实例已成功的任务比例。
12 实际完成时间 如果时间之后显示如“(+n天)”则表示是往后第n天完成”
13 值班组 表示当前当前基线所归属的值班组名称。
14 报警次数 指当前基线报警的次数,报警会按照报警间隔报警。

如下图,为破线时间未完成任务数点击后查看的明细数据:

“基线运维” - 图3 2021-07-15-14-29-36.png

最后,解释一下前文提到的“基线报警”和“基线关联实例失败”。

“基线报警”,指系统检测到基线预计完成时间超过预警时间或破线时间时,会发送报警类型为“基线报警”的通知,给到基线所属值班人员。“基线关联实例失败”,指基线上的任务或上游未挂载在基线上的任务,如果实例运行失败或终止,会发送报警类型为“基线关联实例失败”的报警,给到所有受影响的基线的所属值班人员。

针对“基线报警”功能,支持在当天十二点以后提前预估第二天的基线实例情况,并给出报警。

3 基线诊断

“基线诊断”模块可协助值班组人员更快排查基线的问题。

当值班组人员接收到“基线报警”或“基线关联实例失败”报警时,可通过邮件中的链接快速前往查看查看有问题的基线或实例。

如下图,为“基线报警”邮件,可前往“基线诊断”模块:

“基线运维” - 图5 2021-07-15-16-03-04.png

如下图,为“基线关联实例失败”报警邮件,可点击实例ID前往实例详情页:

“基线运维” - 图7 2021-07-15-15-39-12.png

在基线诊断模块,会显示基线的基础信息和指标、基线相关异常任务实例、关键路径。

如下图,为基线诊断的页面:

“基线运维” - 图9 2021-07-15-16-04-17.png

3.1 基础信息

“基础信息”部分,会展示基线的基本信息,包括基线名称、基线状态、预警时间、余量、未完成任务数、任务完成率、业务日期、基线优先级、破线时间、预计完成时间、破线时间未完成数、破线时间完成率等。

当基线实例预计延迟时,基于这些指标,值班人员可知道当前基线的任务实例预计什么时候完成,目前已经比承诺的基线产出时间延后多久等。

3.2 基线相关异常任务实例

如果基线上的任务或上游未挂载在基线上的任务,如果实例运行失败或终止,则会在此处显示出来。如果此处有记录,则表示当前基线会因此无法正常产出。值班人员,需要联系对应的任务负责人或者任务所归属的值班组的当日值班人员进行处理。

“基线运维” - 图11 2021-07-15-16-07-21.png

3.3 关键路径

对于每天的基线,都会有一个关键路径任务实例图,每10分钟计算一次(可点击制图时间切换查看不同时间的关键路径)。图中会展示当前基线上挂载的任务中,在对应业务日期下,预计完成时间最晚的任务的上游关键路径。往上游追溯的原则是,取所依赖的上游任务实例中,预计完成时间最晚的任务,一直最早追溯到昨天的实例。

值班人员可结合所有任务的结束时间、平均结束时间、运行时长、平均运行时长等4个指标,推测出基线延迟产出的原因是某个任务的调度时间变晚,还是对应实例的执行时间变长等等。也可以搜索基线的其它任务,查看其关键路径。

如果图中的任务,还未到达图中任务的实际运行时间,则会显示“预估”图标,对应的时间也会显示为折线。

“基线运维” - 图13 2021-07-15-16-33-40.png

4 免扰设置

4.1 功能概述

基线运维中会有基线报警功能,如果因为平台问题,或者上游已知的问题等,导致基线会预估破线,则可以使用免扰设置。该设置是针对每条基线进行设置,且仅可由当日值班人员设置。值班人员可设置一段时间,比如120分钟,或者让系统推荐合适的免扰时间。在设置的免扰时间之内,电话报警会被智能取消(短信和邮件等弱提醒会继续保留)。如果不需要时,也可以取消免扰。

如下图,为设置免扰的弹框:

“基线运维” - 图15 2021-07-15-16-46-17.png

对于设置免扰后,在基线运维列表和基线诊断页都会有相应的图标显示。

“基线运维” - 图17 2021-07-15-16-46-56.png

4.2 入口及权限

目前,可在基线运维列表的操作列,或基线诊断的详情页,找到“免扰设置”。

值班组当日值班人员,或者项目负责人和管理,可进行免扰设置。

5 查看报警

对于产生过报警的基线,则列表操作列允许点击“查看报警”,点击后会跳转到报警历史过滤对应的报警历史。