周期实例运维大盘
更新时间: 2023-05-11 20:06:06
阅读 620
周期实例大盘会展示当前项目-集群下任务实例的执行情况。目前包括实例运行概况、周期实例耗时排行Top10、调度延迟排行Top10、基线值班运维概况、基线完成时间5个部分。
说明: 周期实例大盘会反馈比较综合的运维情况,数据团队管理者会比较关注。 |
实例运行概况
在任务运维中心页面,单击周期实例大盘可查看实例运行概况。支持对48小时内的实例运行情况进行查看。
该部分可展示的数据如下:
参数名称 | 说明 |
---|---|
调度任务数 | 指线上调度任务数,如果在当日的某个时刻后取消调度,则下一次的定时统计中,不会计入该任务。对于历史的会保留每天的最后一个快照,对于今天的会定时更新。 |
总任务数 | 指所有已提交上线的任务,包含已调度或未调度的任务总数。 |
计划执行任务数 | 指计划执行时间为所选日期下的调度任务数,如果在当日的某个时刻后取消调度,则下一次的定时统计中,不会计入该任务。 |
未完成数 | 当日调度任务,对于小于天调度周期的,一天会有多个实例,该指标的口径是如果最早的线上调度实例运行失败,或者没有重跑成功或重跑中的实例,则认为任务未完成。(该数据非实时更新) |
完成率 | (1-未完成任务数/计划执行任务数)*100%。 |
完成时间 | 指计划执行任务的预计或实际完成时间,如果任务的调度周期小于天,则仅计算最早实例的完成时间作为任务的完成时间,如果任务实例的预计时间无法计算或超过24小时,则该实例不会计入。 |
平均完成时间 | 指近7天的平均完成时间。 |
计划执行实例数 | 指任务的计划执行时间为所选日期下的所有实例数。对于小于天调度周期的,一天会计算多个实例;对于当日有修改调度时间、调度周期、取消调度等情况时,仅以最新的任务调度信息来统计。 |
失败实例数 | 指当日已生成的实例中,执行失败的实例总数,支持点击查看失败实例列表。 |
失败实例未处理数 | 失败实例无重跑成功或重跑中的实例,则认为是未处理。(该数据非实时更新) |
任务出错排行
任务出错排行展示最近30天与最近60天内运行出错次数最多的前10个任务,根据任务的调度实例运行出错次数倒序排序,重跑和补数据实例运行出错不计算在内。该功能支持按照调度周期、任务优先级进行筛选。
周期实例耗时排行Top10
周期实例耗时排行Top10根据周期实例的运行时长倒序排序,不包含任务依赖的等待时间,运行时长=结束时间-开始运行时间。支持根据实例和节点进行展示,支持通过日期范围和任务负责人进行筛选,点击详情按钮可跳转至实例详情,了解实例具体情况。
调度延迟排行Top10
调度延迟排行Top10根据实例的延迟时长倒序排序,延迟时长=开始执行时间-计划执行时间。支持通过日期范围和任务负责人进行筛选,点击详情按钮可跳转至实例详情
基线值班运维概况
如果当前项目使用了基线运维功能,产生了报警及响应数据,则该模块就能展示相关数据。该模块可展示相关运维效能指标和趋势图,包括有效响应率、有效响应平均时长、有效响应次数、电话报警次数、总报警次数。支持从响应率+次数、响应率+响应时长、响应时长+次数三种不同组合查看指标趋势。支持报警类型和基线的筛选。
参数名称 | 说明 |
---|---|
有效响应率 | 有效响应次数/电话报警次数,用于衡量值班人员响应问题的及时性。对于当日没有电话报警的情况,为了优化展示效果,默认用100%显示,对于评估值班情况,关注非100%的日期即可。 |
有效响应平均时长 | 指电话报警在30分钟内响应的平均响应时长。 |
有效响应次数 | 指电话报警在30分钟内响应的次数。 |
电话报警次数 | 指电话报警的总次数,对于基线报警,一次电话报警算一次,对于基线关联实例失败报警,一个实例有多次电话报警,也只算一次。 |
总报警次数 | 基线报警和基线关联实例失败报警的总次数,对于基线关联实例失败报警,一个实例有多次报警,也只算一次。 |
说明: 通过该页面,管理者可制定相关指标,用于考核值班组的运维效能。比如,有效响应率100%且有效响应平均时长小于10分钟的天数占比大于90%。 |
基线完成时间
该部分展示各条基线的每日完成时间趋势图,支持日期和基线筛选。
文档反馈
以上内容对您是否有帮助?