本实验是将Mysql表中数据同步到Hive库中,因此作为用户需要有mysql数据源的读表权限以及数据传输新建、编辑任务等相关权限。(默认已完成数据源的登记工作)

新建同步任务

首先以用户表为例:

步骤一:在数据传输 - 离线同步任务页面,点击新建任务

数据集成 - 图1

步骤二:完成基本信息配置

数据集成 - 图2

步骤三:配置数据来源与去向

数据集成 - 图3

步骤四:配置字段映射

数据集成 - 图4

步骤五:数据脱敏配置(选填)

数据传输支持静态脱敏,需要事先在安全中心配置脱敏规则,此处以预置规则邮箱地址举例。

配置如下,点击扫描后,系统会对识别表中符合邮箱地址格式的字段,并进行脱敏样例的展示。

数据集成 - 图5

配置完成,点击确定完成用户表的同步。

订单表同步:

对于订单表和用户表稍有不同的是,订单表在mysql中并未分区,但是有一个可以用来分区的字段,同步到hive后会需要通过这个字段进行分区,因此此处配置稍有不同。

数据集成 - 图6

其它项的配置无特殊性,配置完成点击确定即可。

数据同步任务创建

步骤一:试运行已创建完成的两个同步任务

数据集成 - 图7

点击运行后,需要选择队列,如果没有队列可选需要找管理员添加队列的权限。

步骤二:将运行成功的任务,提交上线

数据集成 - 图8

步骤三:对已提交的同步任务创建离线开发任务

数据集成 - 图9

在弹框中,选择保存位置及输入离线开发任务的名称。

数据集成 - 图10

步骤四:创建完成后可在离线开发中查看到此任务

数据集成 - 图11

此时的任务处于开发模式,还未提交至线上模式配置调度。

步骤五:绑定质量监控任务

由于之前已配置了ods_trade_usertable表的质量监控任务,因此此处可将其绑定在任务上。

右键mysql2hiveusertable节点,选择配置质量监控。

数据集成 - 图12

在弹框中的监控名称选择监控任务,如果忘记了,可前往数据质量中心查看,执行失败策略选择默认即可。

数据集成 - 图13

配置完成后,点击临时保存

数据集成 - 图14

步骤六:节点试运行

为了保证开发的质量,此时建议将节点和质量监控都进行试跑,全选所有节点并点击设置并运行

数据集成 - 图15

运行结果页面中查看结果,如果成功则可进行提交上线。

数据集成 - 图16

步骤七:将任务提交上线并配置调度

数据集成 - 图17

在线上模式下编辑调度,点击编辑调度按钮,在页面中设置调度周期。

数据集成 - 图18

除了修改调度周期外其它用默认配置,点击确定并提交调度。