FAQ - File does not exist: hdfs://xxx/xxx/.sparkStaging/application_id/xxx

问题描述/异常栈

spark任务运行报错:File does not exist: hdfs://xxx/xxx/.sparkStaging/application_id/xxx

解决方案

可以通过参数--conf spark.yarn.preserve.staging.files=true  
控制app临时目录在程序结束后不被删除,添加该参数后,再次运行程序,等待其报错,查看其真实的错误原因

问题原因

该报错具有迷惑性,.sparkStaging/下的文件为Spark程序运行时 app产生的临时文件,正常情况下任务结束后临时文件就会清理,可能就导致了File does not exist
注:调试程序至成功执行后,将  --conf spark.yarn.preserve.staging.files=true  这个参数去除

作者:林帅