任务运维中心:基线任务运维,高效诊断,快速恢复

新版任务运维中心提供智能的基线任务运维,是离线开发的必备辅助产品,辅助开发人员进行离线任务管理和实例运维的工作,提高运维效率,及时发现问题并提供诊断建议,并对团队运维情况进行评估。

打开导航栏,点击任务运维中心(新)(代表新版任务运维中心,包含有基线任务运维等功能,老版任务运维中心后续会被新版替换,本示例以新版任务运维中心为例)产品页面。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图1 2021-08-27-14-18-10.png

在任务运维中心进入任务列表Tab,可查看在离线开发中提交至线上的任务运行情况,点击任务流前面的”+”号,可展开当前任务流下各个节点任务的配置情况,支持根据负责人、调度状态、调度周期、任务名称、创建人等内容进行快速筛选(点击更多筛选,支持根据队列、提交人等内容筛选)。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图3 2021-08-27-14-18-22.png

新版任务运维中心引入的一项新功能是基线运维,即通过设定几条时间线(基线),将任务关联至基线上,当任务的实例或者上游实例运行失败,或者实例的预计产出时间超过对应的时间线时,可以通过配置值班人员,系统触发报警通知给值班人员,值班人员负责统一处理和跟进异常,确保团队任务实例都能得到保障。

进行基线运维之前,需要管理员在运维配置中创建基线和值班人员,管理员(当前只有项目管理员/负责人以及具体值班组的负责人有运维配置的入口)点击任务运维中心页面左下角的”运维配置”进入配置页面。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图5 2021-08-27-14-18-35.png

在配置管理页面,值班组管理Tab下,点击新增值班组,填写值班组名称和选择负责人。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图7 2021-08-27-14-19-10.png

值班组创建成功之后,在值班组列表中点击值班组的名称,进入当前值班组的配置页面,点击值班组基础配置,设置提醒时间和报警方式,以及主值班人和备值班人的接收方式。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图9 2021-08-27-14-19-26.png

对于值班组人员的管理,可以点击值班组详情页面的”值班组人员”,在值班组人员管理页面通过引入角色或者手动添加人员的方式,将值班人员在该页面进行统一管理。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图11 2021-08-27-14-19-43.png

值班组人员添加完成之后,返回至值班组详情页面,在下方人员排班信息的时间表中,鼠标hover至具体的日期,出现编辑按钮,点击编辑按钮,选择主值班人和备值班人(此处可选择的人员来源于”值班组人员”管理列表)。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图13 2021-08-27-14-19-59.png

以上完成了值班组管理的配置工作,接下来对基线管理进行设置。

在基线管理Tab下,点击新增基线,填写基线内容,包括名称和优先级等,其中预警时间指的是基线任务中的所有实例都需要在该时刻前运行成功,否则会触发报警,一般建议该时间设置比破线时间早30~60分钟,设置预警时间的目的是为了提前报警,留足处理的时间,保障基线上的实例都能在破线时间前完成;破线时间是指基线任务中所有实例都必须在该时间前运行完成,是挂载在该基线上的任务实例产出时间的承诺时间。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图15 2021-08-27-14-20-15.png

点击新建成功之后,在基线列表中呈现创建成功的基线,可执行关闭、编辑和删除操作,右上角”配置说明”,可Hover查看对于基线的配置说明。当前项目下,可配置多条基线,任务可批量挂载到某条基线上。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图17 2021-08-27-14-20-33.png

基线创建完成后,回到任务运维中心的任务列表页面,支持针对单个任务流设置基线,也可以批量选择任务流设置基线,但需要注意的是,只有调度周期为”天”的任务才可挂载基线,下拉列表中选择已经创建好的基线。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图19 2021-08-27-14-20-48.png

任务挂载在基线上操作完成之后,返回任务运维中心主页面,在”报警模块—基线运维”可以查看当前基线所关联的任务的执行情况,鼠标hover至右上角的”使用说明”,可详细查看如何基于任务挂载的基线来找到预计完成时间较晚的任务实例。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图21 2021-08-27-14-21-02.png

点击基线运维列表中的”基线诊断”,进入基线诊断的详情页面,展示基线的基本信息,包括基线状态、破线时间、预计完成时间等内容,同时展示基线相关的异常任务实例,此处的实例清单指的是挂载在当前基线上的任务和所有上游依赖任务对应的异常实例列表,点击实例ID或者任务名称,会分别跳转到周期实例运维列表以及任务列表页面(值班人员若发现此处存在记录,需要尽快及时进行处理)。

基线诊断详情页面中尤为重要的是会展示当前基线的关键路径,图中会展示当前基线上挂载的任务中,在对应业务日期下,预计完成时间最晚的任务的上游关键路径,针对上游追溯的原则是,取所依赖的上游任务实例中,预计完成时间最晚的任务,一直会最早追溯到昨天的实例。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图23 2021-08-27-14-21-23.png

关键路径图中展示内容包含结束时间、平均结束时间、运行时长和平均运行时长。鼠标Hover至右上角”参数说明”,可查看对于运行时长、平均运行时长、结束时间、平均结束时间等内容的详细说明。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图25 2021-08-27-14-21-40.png

鼠标hover至关键路径的图中,可呈现挂载在当前基线下的任务的结束时间、运行时长等内容。关键路径线路图中,定时计算当前基线上的预计产出时间最晚的任务实例的上游关键路径,辅助值班人员定位到影响当前基线产出的关键上游任务。可结合所有任务的结束时间、平均结束时间、运行时长、平均运行时长4个指标,推测出基线延迟产出的原因是某个任务的调度时间变晚,还是对应实例的执行时间变长等。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图27 2021-08-27-14-22-02.png

以上在基线任务运维模块,了解了基线诊断相关功能。

在报警模块,还可以查看设置的值班组的信息,可详细查看具体日期下的值班人员配置信息。在报警历史Tab下,承载了基线的相关报警数据,包括基线报警和基线关联实例时报报警。

任务运维中心:基线任务运维,高效诊断,快速恢复 - 图29 2021-08-27-14-22-15.png