任务开发

步骤一:从左侧导航栏选择【开发运维】-【离线开发】进入离线开发页面。

1.png

步骤二:选择已创建的cookbook文件夹,右键选择“新建文件夹”。

2.png

步骤三:输入文件夹名称dim,点击“确定”完成配置。

3.png

步骤四:选择已创建的dim文件夹,右键选择“新建任务”。

4.png

步骤五:在弹出的对话框中填写任务名称dim_customer_cus_info_df,其它配置可选择默认。

5.png

步骤六:将SQL节点拖入到画布中,命名为dim_customer_cus_info_df_1,将SQL节点和虚拟节点进行连接。

6.png

步骤七:双击SQL节点,在SQL编辑器中,复制粘贴如下代码。

INSERT
  OVERWRITE TABLE 库名.dim_customer_cus_info_df partition (dt = '${azkaban.flow.1.days.ago}')
select
  cus_id,
  cus_name,
  age,
  address,
  ip,
  id_card
from
  库名.ods_cus_info_df
where
  dt = '${azkaban.flow.1.days.ago}';

步骤八:全选任务,点击“设置并运行”进行测试。

8.png

步骤九:在弹出的对话框中,使用默认配置点击“运行”即可。

9.png

步骤十:运行成功后,任务显示测试通过标记,此时可全选任务进行提交上线操作。

10.png

步骤十一:在弹出的对话框中输入备注信息,并点击“提交上线”按钮完成提交。

11.png

步骤十二:按以上步骤一到十三完成维表dim_product_item_info_df的任务开发,复制粘贴如下代码。

INSERT
  OVERWRITE TABLE 库名.dim_product_item_info_df partition (dt = '${azkaban.flow.1.days.ago}')
select
  item_id,
  item_name,
  brand
from
  库名.ods_item_info_df
where
  dt = '${azkaban.flow.1.days.ago}';

调度配置

步骤一:提交上线后的任务可在【线上模式】进行操作,点击编辑调度按钮进行调度编辑。

12.png

步骤二:选择“全部开启”,点击“设置并提交调度”。

13.png

步骤三:在【编辑调度】的页面,需要进行调度、跨流依赖以及执行设置,此处主要介绍跨流依赖跨流设置方法,点击“添加任务依赖节点”按钮。

14.png

步骤四:在依赖任务中选择mysql2hive_ods_cus_info_df,在依赖节点中选择【末级节点】,并点击“添加”按钮。

15.png

步骤五:点击“确定”按钮,完成调度编辑。

16.png

步骤六:在弹出的对话框中,点击“提交按钮”完成配置。

步骤七:按以上步骤一到六完成维表dim_product_item_info_df的调度配置,选择任务mysql2hive_ods_item_info_df的末级节点。

动态脱敏

步骤一:从左侧导航栏选择【数据治理】 - 【安全中心】进入安全中心页面。

17.png

步骤二:从左侧导航栏选择【数据脱敏】,动态脱敏可通过【数据识别】对指定表或者整库进行数据扫描,也可使用【数据脱敏】直接配置,此案例使用【数据脱敏】直接配置,数据扫描功能在静态脱敏案例中体现。

18.png

步骤三:点击“新增动态脱敏”

19.png

步骤四:进行如下配置,并点击“确定”。

20.png

步骤五:点击弹窗的确定按钮,等待30s后可查看数据脱敏情况。

21.png

步骤六:点击左侧导航栏【开发运维】 - 【自助分析】,新建query并选择hive数据源。

select * from poc_standard.ods_cus_info_df where dt = '${azkaban.flow.1.days.ago}';

22.png

步骤七:复制并运行如下代码,可看到id_card字段脱敏效果。

23.png

步骤八:配置动态脱敏的数据可通过配置白名单的方式查看已脱敏字段的真实信息,从左侧导航栏选择【数据治理】 - 【安全中心】进入安全中心页面。

24.png

步骤九:点击【权限配置】 - 白名单配置,接着点击“新增白名单”按钮。

25.png

步骤十:进行如下配置,并点击“确定”,随后出现弹窗继续点击“确定”。

26.png

步骤十一:重复步骤六、七,检测白名单是否生效,出现如下结果。

27.png