本文为您介绍EasyStream实时开发中如何进行实时任务核心指标监控查看、监控指标含义、如何同构监控指标来判断任务状态。

背景信息

EasyStream实时开发产品中自研Submitter组件,实时任务统一通过Submitter进行指标上报与汇总,最终通过Grafana进行指标展示。

注意事项

  • Source端的指标表现并不是判断问题根源的充分条件,只反映了Source当前的工作状况,您仍然需要其他辅助指标或工具来判断问题的根源。常见问题的指标表现如下:
场景 详情
作业中某些算子存在反压 判断反压最直接的方式是使用Flink UI提供的反压检查功能,而不是通过指标判断。反压的存在会导致Source端数据发送至下游算子的速率下降,您可能会观察到sourceIdleTime周期性上升,currentFetchEventTimecurrentEmitEventTimeLag不断增长。极限情况下(某些算子卡死)sourceIdleTime会持续上升。
Source是性能瓶颈点 如果仅是Source的吞吐量不足,那么您的作业中不应该检测到反压,sourceIdleTime会维持在较低的值(Source一直在工作),currentFetchEventTimeLagcurrentEmitEventTimeLag接近,但是两个指标均较高。
上游数据倾斜或某个分区为空 数据倾斜或空分区会导致某一个或者几个Source并行度处于闲置状态,您会观察到这些Source的sourceIdleTime指标较大。
  • 如果您发现作业的延迟较高,则可以使用以下指标帮您分析Flink当前的处理能力,以及数据在外部系统中的滞留情况。
场景 详情
sourceIdleTime 该指标反映Source是否有闲置,如果该指标较大,说明您的数据在外部系统中的产生速率较低。
currentFetchEventTimeLagcurrentEmitEventTimeLag 均反映了Flink当前处理的延迟,您可以通过两个指标的差值(即数据在 Source中停留的时间)分析Source当前的处理能力。
- 如果两个延迟非常接近,说明Source从外部系统中拉取数据的能力(网络 I/O、并发数)不足。
- 如果两个延迟差值较大,说明Source的数据处理能力(数据解析、并发、反压)不足。

操作步骤

  1. 登录 EasyStream实时计算平台
  2. 快捷导航栏 选择 实时运维 ,若 快捷导航栏 中无相关选项可参考 快速导航栏 进行操作。
  3. 在任务列表中单击目标任务所在行的 监控 按键,在新标签页打开Grafana监控。
  4. 也可以单击 任务名,在展开的抽屉窗口中点击 监控按键,跳转新标签页查看监控。 查看监控指标 - 图1

指标说明

Total

指标 说明
延迟 包含数据延迟滞留与用户自定义延迟两部分指标内容:
- 数据延迟滞留:数据在Kafak内
数据滞留量