INFO-任务提交集群错误问题排查示例

适用模块
离线开发、数据传输等
具体说明
A集群任务运行时提交到B集群的yarn上计算或访问B集群hdfs等导致任务异常或失败
使用示例
场景、A集群离线开发任务提交application到B集群
1、查看库表完整路径是否正确,是否指向了B集群(沙箱环境hms启动时候可能建库路径指向错误)
INFO-任务提交集群错误问题排查示例 - 图1
2、确认是否是个例,新建任务测试spark sql等是否提交正常(新任务有助于排除文件依赖等原因)
3、确认任务资源文件或引用资源组文件是否存在jar,并确认jar是否包含B集群配置文件如xml等(jar 查看工具见本文附件)
INFO-任务提交集群错误问题排查示例 - 图2
INFO-任务提交集群错误问题排查示例 - 图3
4、日志中确认当前环境使用环境变量
INFO-任务提交集群错误问题排查示例 - 图4
确认该spark_client config下是否存在B集群的信息
INFO-任务提交集群错误问题排查示例 - 图5
5、如果步骤3日志打印目录错误,需确认az配置信息是否正确
/usr/easyops/azkaban_exec/current/plugins/jobtypes/commonprivate.properties
INFO-任务提交集群错误问题排查示例 - 图6

作者:林帅