产品概述

任务运维中心是离线开发的必备辅助产品,使命是辅助任务运维人员进行离线任务管理和实例运维的工作,提高运维效率,及时发现问题并提供诊断建议,并为团队运维情况提供评估。

目前包含如下模块,其中运维配置又包括值班组管理和基线管理两个配置项。

产品概述 - 图1 2021-07-12-17-35-49.png

对于一般运维人员而言,可重点关注周期实例运维、任务列表、值班组;对于基线值班人员而言,也需要关注基线运维、报警历史部分;对于数据团队的管理人员,可重点关注周期实例大盘。

对于项目负责人、管理原,可方位运维配置页面,进进行相关配置。具体配置内容,可参见后文以及后续的其它相关章节。

核心功能概述:

1)基线运维

基线运维是新版任务运维中心引入的一项新功能,主要是通过设定几条时间线(即基线),并将线上任务关联到这些时间线上,当这些任务的实例或上游实例运行失败,或者这些实例的预计产出时间超过对应的时间线时,系统会触发报警通知给值班人员。值班人员负责统一处理和跟进所有异常,从而确保团队任务实例都会得到解决。

该功能使用,需要首先前往“运维配置”中的“值班组管理”“基线管理”完成相关配置,然后再前往“任务列表”将任务挂载到基线上。

采用基线运维的好处是,在一个项目中,不同的团队可以根据自身团队的情况,设置所需的基线,圈定所运维的任务,并设置每日的排班,安排人员统一负责该团队的任务实例异常时的处理工作。

原先离线开发中针对任务可单独配置报警,但是没有强有力的手段约束任务负责人去配置报警,以及出了问题及时解决。现在通过基线运维的方式,就可以有专人来跟进解决。

同时,采用基线后可预估基线上及上游任务实例的预计完成时间、实例出现问题时预计什么时候恢复,也能知道每天团队的夜间值班起夜情况、报警情况(总报警次数、电话报警次数)、运维效率(有效响应率、有效响应时长)等。结合基线上实例的历史完成时间,可用于评估数仓数据产出的稳定性、基线配置的合理性。

可前往“基线运维”模块了解更多基线细节。

2)冻结池

冻结池也是新版任务运维中心引入的一项新功能,主要用于离线开发中数据异常并向下游扩散时的快速阻断和高效恢复。目前仅针对项目负责热和管理员暴露,可前往“冻结池”查看介绍。

3)实例运维大盘

通过实例运行概况、值班运维概况、基线完成时间等模块,展示实例的运维大盘数据。

4)周期实例列表及实例详情

展示周期实例的运行列表,支持实例重跑、终止等。

实例详情,可展示实例基本运行信息、节点信息、关键路径、产出影响等,支持查看日志、前往编辑等快捷操作。

5)任务列表

任务列表部分,支持查看已提交上线的所有任务列表,以及任务的内部节点清单,支持对任务设置基线、负责人和任务优先级,支持筛选和搜索。

其中任务优先级,支持基于任务血缘依赖,分钟级进行优先级传递。目前主要用于“加速器”功能中任务的筛选。

6)值班组和基线管理

新版任务运维中心中增加了值班组管理和基线管理功能,这两个功能都是为基线运维服务。一个项目-集群下,可配置多个值班组,每个值班组中可添加组员,并设置每日值班人员。项目-集群下的基线也可以设置多条,并将基线归属到值班组中。基线上挂载的任务的实例或上游任务的实例执行失败或延迟,导致基线的任务无法在设置的时间前全部完成时,系统会给受影响基线的当日值班人员发送报警。