FAQ-PySpark任务在自建Spark与中台Spark运行时间差别很大

问题描述/异常栈

1.spark 2.4 (自建)上运行半个小时,在spark 2.3(中台)运行十多个小时;
2.spark 2.4 上有 70 多个jobspark 2.3  400 多个job

发现版本

LTS 650 Spark 2.3

解决方案

关闭 spark.sql.adaptive.enabled

问题原因

自适应查询执行(AQE)是Spark SQL中的一种优化技术,它利用运行时统计信息来选择最有效的查询执行计划。
Spark SQL可以使用配置spark.sql.adaptive.enabled来控制是否打开/关闭它。
目前在Spark 2.3中该参数为实验性质参数,可能会出现负优化导致任务变慢。

作者:denglaixiang