平台提供Spark开发任务,用户可以使用Spark节点进行任务编写。Spark任务的编程语言支持Java和Python。

说明:离线开发的Spark是基于Yarn,非Mesos或Standalone。

Java


当开发语言选择Java时,界面如下图所示:

Spark - 图1

各设置项说明如下:

设置项 说明
Spark版本 支持3.3(Hadoop 3.3)、3.1.0(Hadoop 2.7.3)、2.3.2(Hadoop 2.7.3)、2.1.2(Hadoop 2.7.3)等版本,支持维护人员通过部署客户端、修改配置等增加其它版本。
模式 支持client和cluster两种模式。client代表driver运行在 azkaban机器上,cluster代表driver运行在集群的一个节点上。
语言 支持Java和Python,此处为Java。
Dricer内存 填入需要使用的Driver内存大小,单位为(M),模式是client时不得超过2048M。
最大Executer数目 填入需要使用的Executor的最大数据。
Executor内存 填入分配给Executor的内存大小,单位为(M)。
执行类 填入Spark任务的执行入口类。
参数 填入执行类参数,以空格分隔。
执行类jar 填入执行类所在的jar路径。
依赖jars 填入依赖的jar路径,多个jar文件以逗号分隔,若依赖某文件夹下的多个jar文件,可使用通配符,但注意只支持x*.jar或者*的形式,不支持*.jar或者中间有通配符的格式,例如不支持./abc/*.jar和./abc/a*b.jar,但支持./abc/aaa*.jar或者./abc/*的形式。

其它配置项,如运行超时时间、自动重试、输入参数、自定义血缘可在“节点概述”中查看。

Python


当开发语言选择Python时,界面如下图所示:

Spark - 图2

参数信息 说明
Spark版本 支持2.1.2(Hadoop 2.7.3)、2.3.2(Hadoop 2.7.3)、3.1.0(Hadoop 2.7.3)
模式 支持client和cluster两种模式。client代表driver运行在本地机器上,cluster代表driver运行在集群的一个节点上。一般推荐生产环境使用cluster模式。
语言 支持Java和Python,此处为Python。
Dricer内存 填入需要使用的Driver内存大小,单位为(M),模式是client时不得超过2048M。
最大Executer数目 填入需要使用的Executor的最大数据。
Executor内存 填入分配给Executor的内存大小,单位为(M)。
执行命令 填入Spark任务的执行命令入口。
依赖文件 填入Spark任务的依赖文件,以逗号分隔对应。

其它配置项,如运行超时时间、自动重试、输入参数、自定义血缘可在“节点概述”中查看。