产品概述

数据测试中心提供hive表的形态探查和数据比对功能,默认对所有人开发。用户在使用时,需要获取对应表的读权限,以及yarn队列权限。

1 形态探查

可对Hive表进行数据形态的探查,一般用于新接入的源头表或者新加工出来的数据的初步探查,了解数据整体的情况。也可以通过探查,发现数据的潜在问题,比如主键唯一性、字段空值、非常规字段值等等。

具体可支持探查如下内容:

1)表级:支持探查总记录数、主键去重记录数、确定主键唯一性。

2)字段级:查看枚举字段枚举值分布;查看字段去重后总量、空值/空串比例、最大长度、最大长度预览、最小长度、最小长度预览、最大值、最小值。

目前所有项目成员都可以访问形态探查,但是仅能探查自己有读权限的表,并且不能操作其他人的形态探查任务。

2 数据比对

可对两个hive表进行逐字段级别的比对,一般用于重要表的加工逻辑调整后或者模型重构后,比对原有数据,确保加工出来的新数据和原有数据的一致性。如果是加工逻辑调整,比对结果一致或差异可解释并能接受,则可认为新的逻辑可以提交上线;如果是模型重构,则认为新的模型数据正确,可安排老模型下游迁移等。

比对方式支持全量比对和抽样比对,关联模式支持主键关联和MD5关联。一般建议采用主键关联,比对速度更快。如果不确定两个表的主键或没有主键时,可采用MD5关联。MD5关联是指,将所选字段的值,通过拼接后,计算MD5值,之后将两表的MD5值进行等值关联。数据比对时,可支持选择哪些字段进行比对、支持配置字段映射、支持设置比对忽略项(空值与0、空值与空串、字段类型忽略、精度差异忽略)。

目前所有项目成员都可以访问数据比对,但是仅能比对自己有读权限的表,并且不能操作其他人的数据比对任务。