查看监控指标
更新时间: 2023-02-23 10:45:12
阅读 1630
本文为您介绍EasyStream实时开发中如何进行实时任务核心指标监控查看、监控指标含义、如何同构监控指标来判断任务状态。
背景信息
EasyStream实时开发产品中自研Submitter组件,实时任务统一通过Submitter进行指标上报与汇总,最终通过Grafana进行指标展示。
注意事项
- Source端的指标表现并不是判断问题根源的充分条件,只反映了Source当前的工作状况,您仍然需要其他辅助指标或工具来判断问题的根源。常见问题的指标表现如下:
场景 | 详情 |
---|---|
作业中某些算子存在反压 | 判断反压最直接的方式是使用Flink UI提供的反压检查功能,而不是通过指标判断。反压的存在会导致Source端数据发送至下游算子的速率下降,您可能会观察到sourceIdleTime 周期性上升,currentFetchEventTime 和currentEmitEventTimeLag 不断增长。极限情况下(某些算子卡死)sourceIdleTime 会持续上升。 |
Source是性能瓶颈点 | 如果仅是Source的吞吐量不足,那么您的作业中不应该检测到反压,sourceIdleTime 会维持在较低的值(Source一直在工作),currentFetchEventTimeLag 和currentEmitEventTimeLag 接近,但是两个指标均较高。 |
上游数据倾斜或某个分区为空 | 数据倾斜或空分区会导致某一个或者几个Source并行度处于闲置状态,您会观察到这些Source的sourceIdleTime 指标较大。 |
- 如果您发现作业的延迟较高,则可以使用以下指标帮您分析Flink当前的处理能力,以及数据在外部系统中的滞留情况。
场景 | 详情 |
---|---|
sourceIdleTime |
该指标反映Source是否有闲置,如果该指标较大,说明您的数据在外部系统中的产生速率较低。 |
currentFetchEventTimeLag 、currentEmitEventTimeLag |
均反映了Flink当前处理的延迟,您可以通过两个指标的差值(即数据在 Source中停留的时间)分析Source当前的处理能力。 - 如果两个延迟非常接近,说明Source从外部系统中拉取数据的能力(网络 I/O、并发数)不足。 - 如果两个延迟差值较大,说明Source的数据处理能力(数据解析、并发、反压)不足。 |
操作步骤
- 登录 EasyStream实时计算平台 。
- 快捷导航栏 选择 实时运维 ,若 快捷导航栏 中无相关选项可参考 快速导航栏 进行操作。
- 在任务列表中单击目标任务所在行的 监控 按键,在新标签页打开Grafana监控。
- 也可以单击 任务名,在展开的抽屉窗口中点击 监控按键,跳转新标签页查看监控。
指标说明
Total
指标 | 说明 |
---|---|
延迟 | 包含数据延迟滞留与用户自定义延迟两部分指标内容: - 数据延迟滞留:数据在Kafak内 |
数据滞留量 |
文档反馈
以上内容对您是否有帮助?