数据测试中心:数据探查,发现数据潜在问题

数据测试中心提供形态探查和数据比对功能,可对Hive表进行数据形态的探查,一般用于新接入的源头表或者新加工出来数据的初步探查,了解数据整体的情况,也可以通过探查,发现数据的潜在问题,比如主键唯一性、字段空值、非常规字段值等。

以上已经将连锁便利店的数据集成到了平台汇总,在对数据进行进一步加工之前,可以使用数据测试中心产品对应的功能对新接入的数据表进行初步探查。

点击左上角的Logo,打开产品导航栏,点击数据测试中心,进入产品页面。

数据测试中心:数据探查,发现数据潜在问题 - 图1 2021-08-27-14-02-31.png

在数据测试中心产品界面,点击形态探查,新建形态探查任务,选择需要进行探查的表(本示例以bdms库下的cookbook_ads_csv_opr_top10sku_sug_di表为例),若有分区,可勾选是否按照分区设置探查,建议勾选,否则有可能会因数据量过大而导致任务执行失败。

数据测试中心:数据探查,发现数据潜在问题 - 图3 2021-08-27-14-02-43.png

选择表之后,可以针对字段设置探查内容,主键可检测唯一性,所有字段可探查最小长度、最大长度、最大值、最小值以及空值/空串比例等内容,系统会根据字段类型自动推荐需要探查的内容,支持自行修改。

数据测试中心:数据探查,发现数据潜在问题 - 图5 2021-08-27-14-02-55.png

任务配置成功后,点击”保存并运行”,平台将针对设置的内容执行探查任务,在形态探查列表中,可以查看创建的探查任务,点击任务ID可进入任务详情页,点击实例ID可查看任务每次执行实例的详情,针对表主键是否唯一和字段的常规探查给出探查的结果。

数据测试中心:数据探查,发现数据潜在问题 - 图7 2021-08-27-14-03-07.png

从实例详情可以看到,针对创建时指定的内容,平台执行探查任务,针对表级,呈现总记录数,主键去重记录数,对主键是否唯一给出结论,针对字段的常规检查,呈现最大程度、最小长度、最大值和最小值等内容。

目前所有项目成员都可以进行形态探查,但仅能探查自己有读权限的表,且不可操作其他人的形态探查任务。

数据测试中心:数据探查,发现数据潜在问题 - 图9 2021-08-27-14-03-18.png

在形态探查列表,针对探查任务可再次编辑和运行,也支持快速克隆任务,点击实例列表,也可以查看当前任务运行的每次实例的执行情况,比如在执行第一次探查时发现数据不符合需求,user_id的最大长度应该是10,但探查出仅为5,可以对数据表字段进行修正,修正后再执行第二次探查,根据探查结果修正数据准确性,以免不合规的数据进入数仓加工过程,污染影响下游任务。