Checkpoint 失败之Checkpoint Decline应如何排查
更新时间: 2024-03-11 02:48:53
阅读 2225
Checkpoint 失败之Checkpoint Decline应如何排查
当发现Checkpoint失败后可以先查看下大致失败时间,然后去查看对应时间jobmanager的日志。
我们能从 jobmanager.log 中看到类似下面的信息
2021-07-30 10:21:43,516 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Decline checkpoint 1234 by task f7b2c48cf31daf8c174a67fa2bdda3b4 of job e1e10d395e1da466ab461b063ec60c68 at container_e03_1585315139513_291086_01_000010 @ bigdataxxx.xxxxxx.com.cn (dataPort=37369).
其中 1234
是 checkpointID,f7b2c48cf31daf8c174a67fa2bdda3b4
是 execution id,e1e10d395e1da466ab461b063ec60c68
是 job id,container_e03_1585315139513_291086_01_000010
是 容器id,我们可以在 taskmanager 页面中查找 容器id,找到被调度到哪个 taskmanager 上,类似如下所示:
接下来我们就可以到 container_e03_1585315139513_291086_01_000010 的 taskmanager.log 中查找 Checkpoint 失败的具体原因了。
文档反馈
以上内容对您是否有帮助?