FAQ-任务reduce到xx%后重新开始

问题描述/异常栈
问题症状描述
任务一直运行中,日志打印reduce94%后,重新开始reduce,磁盘可能会告警
发现版本
8.0-RH
解决方案
解决方案:hive执行中间过程进行落盘,sql逻辑问题导致中间过程较大,可以尝试spark运行,但是还是需要优化sql逻辑
问题原因
任务application,reduce重新开始的那个时间点的rm日志,发现计算节点当时磁盘已经达到了90%宕机,重新开始是换节点运行了
FAQ-任务reduce到xx%后重新开始reduce - 图1
监控在任务运行的时间磁盘使用率涨幅较快
FAQ-任务reduce到xx%后重新开始reduce - 图2

作者:魏璐璐