集群配置

Presto

若集群下有配置Presto集群,支持进入查看配置的Presto集群列表。

集群配置 - 图1

若Presto集群中有多种数据源类型,且需要在离线开发、自助分析等产品使用,为获得这些外部数据源的表血缘数据源,需要在Presto集群中配置catalog和平台具体数据源的映射关系。在SQL中使用三元组操作库表时,系统可基于此处的配置,将Presto集群的catalog和本平台的数据源的catalog进行替换,从而识别并记录血缘数据。

集群配置 - 图2

Python

(1)整体说明

1、Python环境管理为项目组-集群粒度。其中,“系统环境” 为系统预置且默认启用,默认项目组下所有项目均可以使用,“自定义环境”需由用户新建,新建Python环境时可以指定授权项目,仅授权项目可以使用。
2、针对系统环境,支持启用/禁用;针对自定义环境,支持新建、编辑、启用/禁用、发布、查看引用详情、版本记录。
3、Python环境仅支持在离线开发子产品的Python节点中使用。离线开发任务开发模式运行时,使用最新编辑的python环境;线上模式运行时,使用最新发布版本的python环境。如需线上模式生效,保存后请及时发布。

(2)权限说明

1、如需查看当前项目组的Python页面,并拥有Python环境的新建、查看、查看版本记录、查看引用详情权限,需由项目组负责人/管理员在安全中心为该角色/用户分配控制台-项目组设置-集群管理-Python的访问及设置权限。

  • 权限设置入口:

集群配置 - 图3

集群配置 - 图4

2、针对自定义环境,仅Python环境的负责人和管理员,有Python环境的编辑、发布、启用/禁用、版本记录-回滚的权限;针对系统环境,仅项目组负责人和项目组管理员,有Python环境的启用/禁用权限。

(3)使用流程
第一步:新建Python环境

集群配置 - 图5

配置项 说明
Python环境名称 最大字符长度128个字符,无符号限制,不可与当前项目组-集群下已有环境重名。
Python环境标识 最大字符长度64个字符,仅能包含小写字母、数字、下划线,不能以数字和下划线开头。
Python环境描述 请填写描述信息。
负责人 支持选择项目组下任一成员,负责人和管理员有该Python环境的所有操作权限。
管理员 支持选择项目组下任一成员,可多选,负责人和管理员有该Python环境的所有操作权限。
授权项目 支持选择该集群项目组下所有项目或指定项目。仅在授权项目下,可以选择和使用该python环境
Python版本 请填写二位或三位版本号。
使用范围 可多选。针对离线开发的python节点,仅能选择使用范围包含了该节点的执行模式的Python环境。
Python环境来源 支持本地上传环境包或执行机手动安装。
环境包 Python环境来源如选择本地上传环境包,需在页面上传环境包。环境包支持tgz和tar.gz格式,大小不可超过4GB,详见该处的“环境包部署说明”。
环境安装路径 Python环境来源如选择执行机手动安装,需在页面填写环境安装路径,指用户在所有调度执行机上已安装的Python虚拟环境的绝对路径。请按Linux目录格式填写,示例: /opt/env/python_39_env。
激活命令 该命令是一个Linux可执行的命令,用于执行Python脚本前切换到当前的Python虚拟环境。需要用户在虚拟环境中预置一个脚本,用于环境切换。例如 conda 打包的虚拟环境自带的 bin/activate,实际的激活命令形如 source /conda_py_env/bin/activate。由于调度执行机在安装Python虚拟环境时的目录不同,所以我们提供一个环境变量 ${PY_ENV_INSTALL_PATH},代表当前虚拟环境的安装目录。用户可以据此填写激活命令。例如:source ${PY_ENV_INSTALL_PATH}/bin/activate。
退出命令 该命令是一个Linux可执行的命令,用于执行完成Python脚本后退出当前的Python虚拟环境。需要用户在虚拟环境中预置一个脚本,用于退出环境。 例如 conda 打包的虚拟环境自带的 bin/deactivate,实际的激活命令形如 source /conda_py_env/bin/deactivate。和激活命令一样,我们也提供一个环境变量 ${PY_ENV_INSTALL_PATH},代表当前虚拟环境的安装目录。用户可以据此填写退出命令。例如:source ${PY_ENV_INSTALL_PATH}/bin/deactivate。
第二步:测试并发布Python环境

新建Python环境后,在离线开发任务的开发模式支持选择该Python环境。Python环境测试通过后,可以点击“发布”按钮发布该Python环境。发布Python环境后,已引用该Python环境的任务线上模式运行时将使用最新发布的Python环境。

集群配置 - 图6

注意:离线开发任务开发模式运行时,使用最新编辑的python环境;线上模式运行时,使用最新发布版本的python环境。如需线上模式生效,保存后请及时发布。

状态流转逻辑:新建Python环境后,状态为未发布;发布Python环境后,状态更新为已发布;编辑Python环境后,状态更新为修改待发布;此时如再次发布Python环境,状态更新为已发布。

如果Python环境状态为未发布,离线开发任务提交上线会强规则检测不通过,不可发布;如果Python环境状态为修改待发布,离线开发任务提交上线会弱规则检测不通过,提示引用环境的开发模式和线上模式不一致,但仍允许任务提交上线。

(4)其余功能
启用/禁用

新建Python环境后,默认启用。支持启用/禁用Python环境。
禁用Python环境后,任务中不可再选择该Python环境。针对已引用该Python环境的任务,线上模式运行不受影响,但当再次保存任务或再次提交上线时会失败。

集群配置 - 图7

引用详情

通过引用详情,可以了解Python环境的引用情况,在变更Python环境时能够了解影响范围。

集群配置 - 图8

版本记录

Python环境每次发布会生成一个版本。仅支持查看最新发布的10个版本,支持回滚至历史版本,回滚后Python环境的开发模式配置将会被覆盖,如需对线上模式任务生效请及时发布。

集群配置 - 图9

(5)离线开发使用Python环境

在离线开发任务的调度设置和Python节点中,支持选择Python环境。

集群配置 - 图10

开发模式的Python环境选择范围为:授权给当前项目、可用性为已启用、使用范围包含该执行模式的Python环境。

此外,离线开发任务提交上线时,提交上线检测中会判断节点/任务调度设置中选择的Python环境是否已存在(强规则)以及Python环境的开发模式和线上模式是否一致(弱规则)。其中已存在的判断条件包含:发布状态是否为已发布或修改待发布、可用性为已启用、授权项目包含当前项目、使用范围包含选择的执行模式。

集群配置 - 图11

离线开发任务开发模式运行时,使用最新编辑的python环境;线上模式运行时,使用最新发布版本的python环境。

离线开发任务通过发布中心发布时,如发布到开发模式,则检测接收方是否存在1)环境标识相同、2)状态为未发布或已发布或修改待发布,可用性为已启用 3)授权项目包含当前项目、4)使用范围包含选择的执行模式 的开发模式Python环境;如发布到线上模式,则检测接收方是否存在1)环境标识相同、2)状态为已发布或修改待发布、可用性为已启用 3)授权项目包含当前项目4)使用范围包含选择的执行模式 的线上模式Python环境。