数据集成
本实验是将Mysql表中数据同步到Hive库中,因此作为用户需要有mysql数据源的读表权限以及数据传输新建、编辑任务等相关权限。(默认已完成数据源的登记工作)
新建同步任务
首先以用户表为例:
步骤一:在数据传输 - 离线同步任务页面,点击新建任务
步骤二:完成基本信息配置
步骤三:配置数据来源与去向
步骤四:配置字段映射
步骤五:数据脱敏配置(选填)
数据传输支持静态脱敏,需要事先在安全中心配置脱敏规则,此处以预置规则邮箱地址举例。
配置如下,点击扫描后,系统会对识别表中符合邮箱地址格式的字段,并进行脱敏样例的展示。
配置完成,点击确定完成用户表的同步。
订单表同步:
对于订单表和用户表稍有不同的是,订单表在mysql中并未分区,但是有一个可以用来分区的字段,同步到hive后会需要通过这个字段进行分区,因此此处配置稍有不同。
其它项的配置无特殊性,配置完成点击确定即可。
数据同步任务创建
步骤一:试运行已创建完成的两个同步任务
点击运行后,需要选择队列,如果没有队列可选需要找管理员添加队列的权限。
步骤二:将运行成功的任务,提交上线
步骤三:对已提交的同步任务创建离线开发任务
在弹框中,选择保存位置及输入离线开发任务的名称。
步骤四:创建完成后可在离线开发中查看到此任务
此时的任务处于开发模式,还未提交至线上模式配置调度。
步骤五:绑定质量监控任务
由于之前已配置了ods_trade_usertable表的质量监控任务,因此此处可将其绑定在任务上。
右键mysql2hiveusertable节点,选择配置质量监控。
在弹框中的监控名称选择监控任务,如果忘记了,可前往数据质量中心查看,执行失败策略选择默认即可。
配置完成后,点击临时保存。
步骤六:节点试运行
为了保证开发的质量,此时建议将节点和质量监控都进行试跑,全选所有节点并点击设置并运行。
在运行结果页面中查看结果,如果成功则可进行提交上线。
步骤七:将任务提交上线并配置调度
在线上模式下编辑调度,点击编辑调度按钮,在页面中设置调度周期。
除了修改调度周期外其它用默认配置,点击确定并提交调度。
以上内容对您是否有帮助?