配置质量监控

配置质量监控规则的前提是,平台上需要部署“数据质量中心”(外部客户需要购买)。目前仅支持对Hive表进行质量监控。主要的作用是对节点的产出Hive表进行数据校验,比如产出唯一性、表行数、某些特定记录的记录数波动等进行检测,当出现异常时,及时阻断任务执行,防止下游被错误数据污染。

除了虚拟节点和选择节点,其它节点都支持“右键”——“配置质量监控”。如下图,为对SQL节点右键:

配置质量监控 - 图1 2021-08-27-11-48-17.png

如下图,为点击“配置质量监控”后的界面。一般来说,都需要点击“前往数据质量中心”进行质量监控的新建,之后再返回在此处进行质量监控规则的关联。其中的“执行失败的处理”,表示后续任务的节点在执行质量监控任务执行时,如果因某些极端情况,执行失败的策略。

配置质量监控 - 图3 2021-08-22-11-16-26.png

对于质量监控,支持“强规则”和“弱规则”的设置,如果质量监控中配置了“强规则”,而检测结果为异常不通过,则当前节点在执行时,也会变为失败。比如,设置某个表的主键唯一性校验为强规则,而实际当前节点某一次执行时,因为上游数据异常,导致主键不唯一,则当前节点会因为质量监控不通过,而变为失败。更多关于质量监控的说明,可前往查看该产品的介绍页。

配置完质量监控后,可在节点上看到“质量监控”的图标:

配置质量监控 - 图5 2021-08-27-11-49-10.png