Checkpoint 失败之Checkpoint Decline应如何排查

Checkpoint 失败之Checkpoint Decline应如何排查 - 图1 当发现Checkpoint失败后可以先查看下大致失败时间,然后去查看对应时间jobmanager的日志。 Checkpoint 失败之Checkpoint Decline应如何排查 - 图2

我们能从 jobmanager.log 中看到类似下面的信息

2021-07-30 10:21:43,516 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Decline checkpoint 1234 by task f7b2c48cf31daf8c174a67fa2bdda3b4 of job e1e10d395e1da466ab461b063ec60c68 at container_e03_1585315139513_291086_01_000010 @ bigdataxxx.xxxxxx.com.cn (dataPort=37369).

其中 1234 是 checkpointID,f7b2c48cf31daf8c174a67fa2bdda3b4 是 execution id,e1e10d395e1da466ab461b063ec60c68 是 job id,container_e03_1585315139513_291086_01_000010 是 容器id,我们可以在 taskmanager 页面中查找 容器id,找到被调度到哪个 taskmanager 上,类似如下所示: Checkpoint 失败之Checkpoint Decline应如何排查 - 图3 接下来我们就可以到 container_e03_1585315139513_291086_01_000010 的 taskmanager.log 中查找 Checkpoint 失败的具体原因了。