周期运维大盘

周期实例大盘,一般对于数据团队管理者会比较关注,该模块会展示当前项目-集群下任务实例的执行情况。目前包括“实例运行概况”、“值班运维概况”、“基线完成时间”3个部分。

1 实例运行概况

该部分可展示调度任务数、总任务数、计划执行任务、未完成数、完成率、完成时间、平均完成时间、计划执行实例数、实例失败数、失败实例未处理数等指标,也支持完成率、近7天完成率平均值、未完成任务数等指标的今天或昨天或前天的48小时趋势图。

“周期实例大盘” - 图1 2021-07-12-20-24-09.png

2 值班运维概况

如果当前项目使用了基线运维功能,产生了报警及响应数据,则该模块就能展示相关数据。该模块可展示相关运维效能指标和趋势图,包括有效响应率、有效响应平均时长、有效响应次数、电话报警次数、总报警次数。支持从“响应率+次数”、“响应率+响应时长”、“响应时长+次数”三种不同组合查看指标趋势。支持报警类型和基线筛选。

“周期实例大盘” - 图3 2021-07-12-20-38-23.png

通过该页面,管理者可制定相关指标,用于考核值班组的运维效能。比如“有效响应率100%且有效响应平均时长小于10分钟的天数占比大于90%”。

此外,也可以查看不同值班组的每日值班起夜情况,入口在区块标题右侧。在值班起夜情况弹框中,还标记了值班人员的起夜情况。值班人员在0-8点对报警时间在0-8点的报警记录(未智能取消的电话报警)点击了“报警响应”,则认为是起夜。

“周期实例大盘” - 图5 2021-07-12-20-39-45.png

3 基线完成时间

该部分展示各条基线的每日完成时间趋势图,支持日期和基线筛选。

“周期实例大盘” - 图7 2021-07-12-20-42-12.png