产品概述
更新时间: 2022-03-08 14:01:30
阅读 317
数据测试中心提供Hive表的形态探查和数据比对功能,默认对所有人开放。用户在使用时,需要具备对应表的读权限以及yarn队列使用权限。
形态探查
形态探查功能主要是对Hive表进行数据形态的探查。一般可用于新接入的源头表或者对新加工出来的数据进行探查,了解数据整体情况。也可以通过该功能,发现数据的潜在的问题,比如主键唯一性、字段空值、非常规字段值等等。
具体可支持探查如下内容:
探查范围 | 支持项 |
---|---|
表级 | 支持探查总记录数、主键去重记录数、确定主键唯一性。 |
字段级 | 查看枚举字段枚举值分布;查看字段去重后总量、空值/空串比例、最大长度、最大长度预览、最小长度、最小长度预览、最大值、最小值。 |
说明:目前所有项目成员都可以访问形态探查功能,但是仅能探查自己有读权限的表,不能操作其他人的形态探查任务。 |
数据比对
数据比对功能可对两个Hive表进行逐字段级别的比对,一般用于当重要表的加工逻辑调整后或者模型重构后,为了确保加工出来的新数据和原有数据的一致性,需要和原有数据进行比对。
- 如果是加工逻辑调整,比对结果一致或者差异可解释并能接受,则认为新的逻辑可以提交上线。
- 如果是模型重构,比对结果反应新的模型数据正确,则可安排老模型下线、迁移。
当前,比对方式支持全量比对和抽样比对,关联模式支持主键关联和MD5关联。
- 一般建议采用主键关联,比对速度更快。
- 如果不确定两个表的主键或没有主键时,可采用MD5关联。
MD5关联是指,将所选字段的值通过拼接后计算MD5值,之后将两表的MD5值进行等值关联。
数据比对时,可支持选择哪些字段进行比对、支持配置字段映射、支持设置比对忽略项(空值与0、空值与空串、字段类型忽略、精度差异忽略)。
说明:目前所有项目成员都可以访问数据比对,但是仅能比对自己有读权限的表,并且不能操作其他人的数据比对任务。 |
文档反馈
以上内容对您是否有帮助?