FAQ-PySpark任务在自建Spark与中台Spark运行时间差别很大
更新时间: 2024-03-11 02:43:55
阅读 1062
FAQ-PySpark任务在自建Spark与中台Spark运行时间差别很大
问题描述/异常栈
1.在spark 2.4 (自建)上运行半个小时,在spark 2.3(中台)运行十多个小时;
2.在spark 2.4 上有 70 多个job,spark 2.3 有 400 多个job;
发现版本
LTS 650 Spark 2.3
解决方案
关闭 spark.sql.adaptive.enabled;
问题原因
自适应查询执行(AQE)是Spark SQL中的一种优化技术,它利用运行时统计信息来选择最有效的查询执行计划。
Spark SQL可以使用配置spark.sql.adaptive.enabled来控制是否打开/关闭它。
目前在Spark 2.3中该参数为实验性质参数,可能会出现负优化导致任务变慢。
作者:denglaixiang
文档反馈
以上内容对您是否有帮助?