集群配置
集群配置
Presto
若集群下有配置Presto集群,支持进入查看配置的Presto集群列表。
若Presto集群中有多种数据源类型,且需要在离线开发、自助分析等产品使用,为获得这些外部数据源的表血缘数据源,需要在Presto集群中配置catalog和平台具体数据源的映射关系。在SQL中使用三元组操作库表时,系统可基于此处的配置,将Presto集群的catalog和本平台的数据源的catalog进行替换,从而识别并记录血缘数据。
Python
(1)整体说明
1、Python环境管理为项目组-集群粒度。其中,“系统环境” 为系统预置且默认启用,默认项目组下所有项目均可以使用,“自定义环境”需由用户新建,新建Python环境时可以指定授权项目,仅授权项目可以使用。
2、针对系统环境,支持启用/禁用;针对自定义环境,支持新建、编辑、启用/禁用、发布、查看引用详情、版本记录。
3、Python环境仅支持在离线开发子产品的Python节点中使用。离线开发任务开发模式运行时,使用最新编辑的python环境;线上模式运行时,使用最新发布版本的python环境。如需线上模式生效,保存后请及时发布。
(2)权限说明
1、如需查看当前项目组的Python页面,并拥有Python环境的新建、查看、查看版本记录、查看引用详情权限,需由项目组负责人/管理员在安全中心为该角色/用户分配控制台-项目组设置-集群管理-Python的访问及设置权限。
- 权限设置入口:
2、针对自定义环境,仅Python环境的负责人和管理员,有Python环境的编辑、发布、启用/禁用、版本记录-回滚的权限;针对系统环境,仅项目组负责人和项目组管理员,有Python环境的启用/禁用权限。
(3)使用流程
第一步:新建Python环境
配置项 | 说明 |
---|---|
Python环境名称 | 最大字符长度128个字符,无符号限制,不可与当前项目组-集群下已有环境重名。 |
Python环境标识 | 最大字符长度64个字符,仅能包含小写字母、数字、下划线,不能以数字和下划线开头。 |
Python环境描述 | 请填写描述信息。 |
负责人 | 支持选择项目组下任一成员,负责人和管理员有该Python环境的所有操作权限。 |
管理员 | 支持选择项目组下任一成员,可多选,负责人和管理员有该Python环境的所有操作权限。 |
授权项目 | 支持选择该集群项目组下所有项目或指定项目。仅在授权项目下,可以选择和使用该python环境 |
Python版本 | 请填写二位或三位版本号。 |
使用范围 | 可多选。针对离线开发的python节点,仅能选择使用范围包含了该节点的执行模式的Python环境。 |
Python环境来源 | 支持本地上传环境包或执行机手动安装。 |
环境包 | Python环境来源如选择本地上传环境包,需在页面上传环境包。环境包支持tgz和tar.gz格式,大小不可超过4GB,详见该处的“环境包部署说明”。 |
环境安装路径 | Python环境来源如选择执行机手动安装,需在页面填写环境安装路径,指用户在所有调度执行机上已安装的Python虚拟环境的绝对路径。请按Linux目录格式填写,示例: /opt/env/python_39_env。 |
激活命令 | 该命令是一个Linux可执行的命令,用于执行Python脚本前切换到当前的Python虚拟环境。需要用户在虚拟环境中预置一个脚本,用于环境切换。例如 conda 打包的虚拟环境自带的 bin/activate,实际的激活命令形如 source /conda_py_env/bin/activate。由于调度执行机在安装Python虚拟环境时的目录不同,所以我们提供一个环境变量 ${PY_ENV_INSTALL_PATH},代表当前虚拟环境的安装目录。用户可以据此填写激活命令。例如:source ${PY_ENV_INSTALL_PATH}/bin/activate。 |
退出命令 | 该命令是一个Linux可执行的命令,用于执行完成Python脚本后退出当前的Python虚拟环境。需要用户在虚拟环境中预置一个脚本,用于退出环境。 例如 conda 打包的虚拟环境自带的 bin/deactivate,实际的激活命令形如 source /conda_py_env/bin/deactivate。和激活命令一样,我们也提供一个环境变量 ${PY_ENV_INSTALL_PATH},代表当前虚拟环境的安装目录。用户可以据此填写退出命令。例如:source ${PY_ENV_INSTALL_PATH}/bin/deactivate。 |
第二步:测试并发布Python环境
新建Python环境后,在离线开发任务的开发模式支持选择该Python环境。Python环境测试通过后,可以点击“发布”按钮发布该Python环境。发布Python环境后,已引用该Python环境的任务线上模式运行时将使用最新发布的Python环境。
注意:离线开发任务开发模式运行时,使用最新编辑的python环境;线上模式运行时,使用最新发布版本的python环境。如需线上模式生效,保存后请及时发布。
状态流转逻辑:新建Python环境后,状态为未发布;发布Python环境后,状态更新为已发布;编辑Python环境后,状态更新为修改待发布;此时如再次发布Python环境,状态更新为已发布。
如果Python环境状态为未发布,离线开发任务提交上线会强规则检测不通过,不可发布;如果Python环境状态为修改待发布,离线开发任务提交上线会弱规则检测不通过,提示引用环境的开发模式和线上模式不一致,但仍允许任务提交上线。
(4)其余功能
启用/禁用
新建Python环境后,默认启用。支持启用/禁用Python环境。
禁用Python环境后,任务中不可再选择该Python环境。针对已引用该Python环境的任务,线上模式运行不受影响,但当再次保存任务或再次提交上线时会失败。
引用详情
通过引用详情,可以了解Python环境的引用情况,在变更Python环境时能够了解影响范围。
版本记录
Python环境每次发布会生成一个版本。仅支持查看最新发布的10个版本,支持回滚至历史版本,回滚后Python环境的开发模式配置将会被覆盖,如需对线上模式任务生效请及时发布。
(5)离线开发使用Python环境
在离线开发任务的调度设置和Python节点中,支持选择Python环境。
开发模式的Python环境选择范围为:授权给当前项目、可用性为已启用、使用范围包含该执行模式的Python环境。
此外,离线开发任务提交上线时,提交上线检测中会判断节点/任务调度设置中选择的Python环境是否已存在(强规则)以及Python环境的开发模式和线上模式是否一致(弱规则)。其中已存在的判断条件包含:发布状态是否为已发布或修改待发布、可用性为已启用、授权项目包含当前项目、使用范围包含选择的执行模式。
离线开发任务开发模式运行时,使用最新编辑的python环境;线上模式运行时,使用最新发布版本的python环境。
离线开发任务通过发布中心发布时,如发布到开发模式,则检测接收方是否存在1)环境标识相同、2)状态为未发布或已发布或修改待发布,可用性为已启用 3)授权项目包含当前项目、4)使用范围包含选择的执行模式 的开发模式Python环境;如发布到线上模式,则检测接收方是否存在1)环境标识相同、2)状态为已发布或修改待发布、可用性为已启用 3)授权项目包含当前项目4)使用范围包含选择的执行模式 的线上模式Python环境。
以上内容对您是否有帮助?