节点类型介绍 - Spark - 《数据开发与治理平台Easydata用户手册-V8.0 Update11》

Spark

更新时间: 2024-12-04 15:43:41 | 阅读 39

复制

平台提供Spark开发任务，用户可以使用Spark节点进行任务编写。Spark任务的编程语言支持Java和Python。

说明：离线开发的Spark是基于Yarn，非Mesos或Standalone。

当开发语言选择Java时，界面如下图所示：

各设置项说明如下：

设置项	说明
Spark版本	支持3.3（Hadoop 3.3）、3.1.0（Hadoop 2.7.3）、2.3.2（Hadoop 2.7.3）、2.1.2（Hadoop 2.7.3）等版本，支持维护人员通过部署客户端、修改配置等增加其它版本。
模式	支持client和cluster两种模式。client代表driver运行在 azkaban机器上，cluster代表driver运行在集群的一个节点上。
语言	支持Java和Python，此处为Java。
Dricer内存	填入需要使用的Driver内存大小，单位为(M)，模式是client时不得超过2048M。
最大Executer数目	填入需要使用的Executor的最大数据。
Executor内存	填入分配给Executor的内存大小，单位为(M)。
执行类	填入Spark任务的执行入口类。
参数	填入执行类参数，以空格分隔。
执行类jar	填入执行类所在的jar路径。
依赖jars	填入依赖的jar路径，多个jar文件以逗号分隔，若依赖某文件夹下的多个jar文件，可使用通配符，但注意只支持x.jar或者的形式，不支持.jar或者中间有通配符的格式，例如不支持./abc/.jar和./abc/ab.jar，但支持./abc/aaa.jar或者./abc/*的形式。

其它配置项，如运行超时时间、自动重试、输入参数、自定义血缘可在“节点概述”中查看。

当开发语言选择Python时，界面如下图所示：

参数信息	说明
Spark版本	支持2.1.2（Hadoop 2.7.3)、2.3.2（Hadoop 2.7.3)、3.1.0（Hadoop 2.7.3)
模式	支持client和cluster两种模式。client代表driver运行在本地机器上，cluster代表driver运行在集群的一个节点上。一般推荐生产环境使用cluster模式。
语言	支持Java和Python，此处为Python。
Dricer内存	填入需要使用的Driver内存大小，单位为(M)，模式是client时不得超过2048M。
最大Executer数目	填入需要使用的Executor的最大数据。
Executor内存	填入分配给Executor的内存大小，单位为(M)。
执行命令	填入Spark任务的执行命令入口。
依赖文件	填入Spark任务的依赖文件，以逗号分隔对应。

其它配置项，如运行超时时间、自动重试、输入参数、自定义血缘可在“节点概述”中查看。

鼠标选中文档，精准反馈问题

选中存在疑惑的内容，即可快速反馈问题，我们会跟进处理

不再提示我知道了

文档反馈