数据测试中心提供Hive表的形态探查数据比对功能,默认对所有人开放。用户在使用时,需要具备对应表的读权限以及yarn队列使用权限。

形态探查


形态探查功能主要是对Hive表进行数据形态的探查。一般可用于新接入的源头表或者对新加工出来的数据进行探查,了解数据整体情况。也可以通过该功能,发现数据的潜在的问题,比如主键唯一性、字段空值、非常规字段值等等。

具体可支持探查如下内容:

探查范围 支持项
表级 支持探查总记录数、主键去重记录数、确定主键唯一性。
字段级 查看枚举字段枚举值分布;查看字段去重后总量、空值/空串比例、最大长度、最大长度预览、最小长度、最小长度预览、最大值、最小值。

说明:目前所有项目成员都可以访问形态探查功能,但是仅能探查自己有读权限的表,不能操作其他人的形态探查任务。

数据比对


数据比对功能可对两个Hive表进行逐字段级别的比对,一般用于当重要表的加工逻辑调整后或者模型重构后,为了确保加工出来的新数据和原有数据的一致性,需要和原有数据进行比对。

  • 如果是加工逻辑调整,比对结果一致或者差异可解释并能接受,则认为新的逻辑可以提交上线。
  • 如果是模型重构,比对结果反应新的模型数据正确,则可安排老模型下线、迁移。

当前,比对方式支持全量比对抽样比对,关联模式支持主键关联MD5关联

  • 一般建议采用主键关联,比对速度更快。
  • 如果不确定两个表的主键或没有主键时,可采用MD5关联

MD5关联是指,将所选字段的值通过拼接后计算MD5值,之后将两表的MD5值进行等值关联。
数据比对时,可支持选择哪些字段进行比对、支持配置字段映射、支持设置比对忽略项(空值与0、空值与空串、字段类型忽略、精度差异忽略)。

说明:目前所有项目成员都可以访问数据比对,但是仅能比对自己有读权限的表,并且不能操作其他人的数据比对任务。