Spark节点

Spark任务的编程语言支持Java和Python,猛犸上Spark是基于Yarn的,非Mesos或Standalone方式。

Java

如下图,为语言选则Spark的界面:

Spark - 图1 2021-08-27-13-51-36.png

Spark版本: 支持Spark2.1.2、2.3.2、3.1.0 模式: 可以选择client或cluster,client代表driver运行在 azkaban机器上,cluster代表driver运行在集群的一个节点上。 语言: 支持Java和Python,此处选择Java Dricer内存: 填入需要使用的Driver内存大小,单位为(M),模式是client时不得超过2048M 最大Executer数目: 填入需要使用的Executor的最大数据 Executor内存: 填入分配给Executor的内存大小,单位为(M) 执行类: 填入Spark任务的执行入口类 参数: 填入执行类参数,以空格分隔 执行类jar: 填入执行类所在的jar路径 依赖jars: 填入依赖的jar路径,多个jar文件以逗号分隔,若依赖某文件夹下的多个jar文件,可使用通配符,但注意只支持x*.jar或者*的形式,不支持*.jar或者中间有通配符的格式,例如不支持./abc/*.jar和./abc/a*b.jar,但支持./abc/aaa*.jar或者./abc/*的形式 运行超时时间: 节点运行超时终止的时间选择 自动重试: 节点当此实例中异常重试的次数(节点的实例ID为同一个,) 节点属性: 可以添加自定义变量,如conf.spark.yarn.dist.files和executor-cores

Python

如下图,为语言选则Python的界面:

Spark - 图3 2021-08-27-14-08-57.png

Spark版本: 支持Spark2.1.2、2.3.2、3.1.0 模式: 可以选择client或cluster,client代表driver运行在 azkaban机器上,cluster代表driver运行在集群的一个节点上。 语言: 支持Java和Python,此处选择Python Dricer内存: 填入需要使用的Driver内存大小,单位为(M),模式是client时不得超过2048M 最大Executer数目: 填入需要使用的Executor的最大数据 Executor内存: 填入分配给Executor的内存大小,单位为(M) 执行命令: 填入Spark执行命令入口 依赖文件: 填入Spark任务的依赖文件,以逗号分隔对应 运行超时时间: 节点运行超时终止的时间选择 自动重试: 节点当此实例中异常重试的次数(节点的实例ID为同一个,) 节点属性: 可以添加自定义变量,如conf.spark.yarn.dist.files和executor-cores