INFO-spark任务如何可以优化执行时间

使用场景
spark任务通过添加参数等手段优化后执行时间还想优化可以配置参数spark.yarn.archive去缩短spark exec的启动时间
使用示例
当配置 spark.yarn.archive 后,YARN container 直接从配置的路径加载 Spark 的 Jars,而非从 spark-submit 节点分发。该配置可以加速 Spark 启动,但会带来额外的运维成本,容易造成版本不一致。 如无严重性能焦虑,建议去除此配置;若必须使用,要同时更新 spark.yarn.archive 指向的 HDFS 上的缓存,务必保持与本地 Spark 客户端版本完全一致。 INFO-spark任务优化执行时间 - 图1

作者:常惠渊