周期实例大盘会展示当前项目-集群下任务实例的执行情况。目前包括实例运行概况周期实例耗时排行Top10调度延迟排行Top10基线值班运维概况基线完成时间5个部分。

说明: 周期实例大盘会反馈比较综合的运维情况,数据团队管理者会比较关注。

实例运行概况

任务运维中心页面,单击周期实例大盘可查看实例运行概况。支持对48小时内的实例运行情况进行查看。
周期实例运维大盘 - 图1
该部分可展示的数据如下:

参数名称 说明
调度任务数 指线上调度任务数,如果在当日的某个时刻后取消调度,则下一次的定时统计中,不会计入该任务。对于历史的会保留每天的最后一个快照,对于今天的会定时更新。
总任务数 指所有已提交上线的任务,包含已调度或未调度的任务总数。
计划执行任务数 指计划执行时间为所选日期下的调度任务数,如果在当日的某个时刻后取消调度,则下一次的定时统计中,不会计入该任务。
未完成数 当日调度任务,对于小于天调度周期的,一天会有多个实例,该指标的口径是如果最早的线上调度实例运行失败,或者没有重跑成功或重跑中的实例,则认为任务未完成。(该数据非实时更新)
完成率 (1-未完成任务数/计划执行任务数)*100%。
完成时间 指计划执行任务的预计或实际完成时间,如果任务的调度周期小于天,则仅计算最早实例的完成时间作为任务的完成时间,如果任务实例的预计时间无法计算或超过24小时,则该实例不会计入。
平均完成时间 指近7天的平均完成时间。
计划执行实例数 指任务的计划执行时间为所选日期下的所有实例数。对于小于天调度周期的,一天会计算多个实例;对于当日有修改调度时间、调度周期、取消调度等情况时,仅以最新的任务调度信息来统计。
失败实例数 指当日已生成的实例中,执行失败的实例总数,支持点击查看失败实例列表。
失败实例未处理数 失败实例无重跑成功或重跑中的实例,则认为是未处理。(该数据非实时更新)

任务出错排行

任务出错排行展示最近30天与最近60天内运行出错次数最多的前10个任务,根据任务的调度实例运行出错次数倒序排序,重跑和补数据实例运行出错不计算在内。该功能支持按照调度周期、任务优先级进行筛选。

周期实例运维大盘 - 图2

周期实例耗时排行Top10

周期实例耗时排行Top10根据周期实例的运行时长倒序排序,不包含任务依赖的等待时间,运行时长=结束时间-开始运行时间。支持根据实例节点进行展示,支持通过日期范围和任务负责人进行筛选,点击详情按钮可跳转至实例详情,了解实例具体情况。
周期实例运维大盘 - 图3

调度延迟排行Top10

调度延迟排行Top10根据实例的延迟时长倒序排序,延迟时长=开始执行时间-计划执行时间。支持通过日期范围和任务负责人进行筛选,点击详情按钮可跳转至实例详情
周期实例运维大盘 - 图4

基线值班运维概况

如果当前项目使用了基线运维功能,产生了报警及响应数据,则该模块就能展示相关数据。该模块可展示相关运维效能指标和趋势图,包括有效响应率、有效响应平均时长、有效响应次数、电话报警次数、总报警次数。支持从响应率+次数响应率+响应时长响应时长+次数三种不同组合查看指标趋势。支持报警类型和基线的筛选。

周期实例运维大盘 - 图5

参数名称 说明
有效响应率 有效响应次数/电话报警次数,用于衡量值班人员响应问题的及时性。对于当日没有电话报警的情况,为了优化展示效果,默认用100%显示,对于评估值班情况,关注非100%的日期即可。
有效响应平均时长 指电话报警在30分钟内响应的平均响应时长。
有效响应次数 指电话报警在30分钟内响应的次数。
电话报警次数 指电话报警的总次数,对于基线报警,一次电话报警算一次,对于基线关联实例失败报警,一个实例有多次电话报警,也只算一次。
总报警次数 基线报警和基线关联实例失败报警的总次数,对于基线关联实例失败报警,一个实例有多次报警,也只算一次。

说明: 通过该页面,管理者可制定相关指标,用于考核值班组的运维效能。比如,有效响应率100%且有效响应平均时长小于10分钟的天数占比大于90%。
此外,单击值班记录情况可以查看不同值班组的每日值班起夜情况。

基线完成时间

该部分展示各条基线的每日完成时间趋势图,支持日期和基线筛选。

周期实例运维大盘 - 图6
2021-07-12-20-42-12.png