Alluxio 对接步骤

    按以下顺序操作

    确认对接了alluxio的基础组件全部安装完成,列表如下

    服务 必选
    yarn
    spark2
    hive
    hdfs
    httpfs
    kuyybi 可选
    impala 可选

    查看部署azkaban exec服务的机器(建议azkaban四个组件fc,web,exec,lib部署在同一个机器上)

    在azkaban exec部署的机器上,扩容以下组件:

    服务 组件 是否必选扩容 其他
    easy_test client 如果安装了easy_test实例,必选
    easy_dqc client 如果安装了easy_dqc实例,必选
    easy_transfer client 如果安装了easy_transfer实例,必选
    yarn client 必选 对接了alluxio的yarn
    spark2 client 必选 对接了alluxio的spark2
    hive client 必选 对接了alluxio的hive
    alluxio worker 必选

    修改对接alluxio的基础组件高级选项

    服务 字段名 类型
    yarn fs.defaultFS string alluxio://node2.local:19998(样例),取值来自alluxio实例的master配置组的配置项alluxio.master.rpc.addresses,注意添加alluxio://前缀;如果是多个用逗号分隔的地址,只取一个地址即可
    yarn nameservice string alluxio_hdfs
    spark2 nameservice string alluxio_hdfs
    hive nameservice string alluxio_hdfs
    hdfs fs.defaultFS string alluxio://node2.local:19998(样例),取值来自alluxio实例的master配置组的配置项alluxio.master.rpc.addresses,注意添加alluxio://前缀;如果是多个用逗号分隔的地址,只取一个地址即可
    hdfs fs string alluxio
    httpfs nameservice string alluxio_hdfs
    kuyybi nameservice string alluxio_hdfs
    impala nameservice string alluxio_hdfs

    安装对接alluxio的azkaban实例

    修改安装默认依赖

    服务 操作
    hdfs 去掉默认选择的hdfs依赖
    yarn 去掉默认选择的yarn依赖,只选择对接了alluxio的yarn
    spark2 去掉默认选择的spark2依赖,只选择对接了alluxio的spark2
    hive 去掉默认选择的hive依赖,只选择对接了alluxio的hive
    alluxio 选择依赖
    zookeeper 不要和原有集群部署的az使用同一个zk服务
    mysql 由约定的部署架构决定,如果选择和对接其他集群的az共用一个mysql的话,不修改依赖

    修改高级选项

    字段名 类型
    nameservice string alluxio_hdfs

    修改默认配置

    配置项组 配置 默认值 修改后建议值 备注
    mysql db_name azkaban azkaban_alluxio 由约定的部署架构决定,如果选择和对接其他集群的az共用一个mysql的话,按建议值修改;不依赖同一个mysql,不要此修改
    mysql db_user azkaban azkaban_alluxio 由约定的部署架构决定,如果选择和对接其他集群的az共用一个mysql的话,按建议值修改;不依赖同一个mysql,不要此修改
    mysql db_password azkaban@163 azkaban_alluxio 由约定的部署架构决定,如果选择和对接其他集群的az共用一个mysql的话,按建议值修改;不依赖同一个mysql,不要此修改
    global cluster.name alluxio_hdfs

    另存配置组,且应用配置到所有组件

    安装azkaban

    mammut

    新增对接alluxio的组件依赖

    服务 操作 必选
    hdfs 新增对接了alluxio的hdfs
    yarn 新增对接了alluxio的yarn
    spark2 新增对接了alluxio的spark2
    hive 新增对接了alluxio的hive
    azkaban 新增对接了alluxio的azkaban
    httpfs 新增
    kuyybi 新增对接了alluxio的kuyybi 如果安装,必选
    impala 新增对接了alluxio的impala 如果安装,必选

    重启并勾选同步配置

    metahub

    新增对接alluxio的组件依赖

    服务 操作
    hive 新增对接了alluxio的hive

    升级到4.0.7.2版本以上

    hadoop-meta

    新增对接alluxio的组件依赖

    服务 操作
    yarn 新增对接了alluxio的yarn
    hdfs 新增对接了alluxio的hdfs
    alluxio 新增

    确认alluxio的worker是否已部署在hadoop meta kdc组件所在的机器上

    查询对接alluxio的yarn实例的resourcemanager组件所在的机器,在该组机器上部署scheduler组件

    查询service组件所在的机器,确认对接alluxio的yarn的client组件已部署在这台机器上

    重启并勾选同步配置

    选择一个mammut项目申请alluxio集群,并审批新集群成功

    easy_dqc

    新增对接alluxio的组件依赖

    服务 操作
    azkaban 新增对接了alluxio的azkaban
    yarn 新增对接了alluxio的yarn

    高级选项

    部署在对接alluxio的azkaban exec所在机器上的client需要添加高级选项

    字段名 类型
    nameservice string alluxio_hdfs

    重启并勾选同步配置

    easy_transfer

    新增对接alluxio的组件依赖

    服务 操作
    azkaban 新增对接了alluxio的azkaban

    backend服务重启并勾选同步配置

    easy_test

    新增对接alluxio的组件依赖

    服务 操作
    azkaban 新增对接了alluxio的azkaban

    backend重启并勾选同步配置

    easy_taskops

    新增对接alluxio的组件依赖

    服务 操作
    azkaban 新增对接了alluxio的azkaban
    yarn 新增对接了alluxio的yarn
    spark2 新增对接了alluxio的spark2

    backend重启并勾选同步配置

    新集群hive血缘插件配置

    修改配置

    配置项组 配置 类型
    lineage.xml lineage.hive.catalog string alluxio_hdfs_hive_catalog

    同步配置,重启hiveserver, metastore

    新集群spark血缘插件配置

    修改配置

    配置项组 配置 类型
    lineage_xml lineage.hive.catalog string alluxio_hdfs_hive_catalog
    spark-defaults.conf spark.lineage.hive.catalog strint alluxio_hdfs_hive_catalog

    同步配置