产品概述
更新时间: 2022-01-04 15:24:13
阅读 174
产品概述
数据测试中心提供hive表的形态探查和数据比对功能,默认对所有人开发。用户在使用时,需要获取对应表的读权限,以及yarn队列权限。
1 形态探查
可对Hive表进行数据形态的探查,一般用于新接入的源头表或者新加工出来的数据的初步探查,了解数据整体的情况。也可以通过探查,发现数据的潜在问题,比如主键唯一性、字段空值、非常规字段值等等。
具体可支持探查如下内容:
1)表级:支持探查总记录数、主键去重记录数、确定主键唯一性。
2)字段级:查看枚举字段枚举值分布;查看字段去重后总量、空值/空串比例、最大长度、最大长度预览、最小长度、最小长度预览、最大值、最小值。
目前所有项目成员都可以访问形态探查,但是仅能探查自己有读权限的表,并且不能操作其他人的形态探查任务。
2 数据比对
可对两个hive表进行逐字段级别的比对,一般用于重要表的加工逻辑调整后或者模型重构后,比对原有数据,确保加工出来的新数据和原有数据的一致性。如果是加工逻辑调整,比对结果一致或差异可解释并能接受,则可认为新的逻辑可以提交上线;如果是模型重构,则认为新的模型数据正确,可安排老模型下游迁移等。
比对方式支持全量比对和抽样比对,关联模式支持主键关联和MD5关联。一般建议采用主键关联,比对速度更快。如果不确定两个表的主键或没有主键时,可采用MD5关联。MD5关联是指,将所选字段的值,通过拼接后,计算MD5值,之后将两表的MD5值进行等值关联。数据比对时,可支持选择哪些字段进行比对、支持配置字段映射、支持设置比对忽略项(空值与0、空值与空串、字段类型忽略、精度差异忽略)。
目前所有项目成员都可以访问数据比对,但是仅能比对自己有读权限的表,并且不能操作其他人的数据比对任务。
文档反馈
以上内容对您是否有帮助?