形态探查
形态探查功能支持对Hive、MySQL、Oracle、SQLServer、StarRocks、Diors表进行数据形态探查。一般可用于新接入的源头表或者对新加工出来的数据进行探查,了解数据整体情况。也可以通过该功能,发现数据的潜在的问题,比如主键唯一性、字段空值、非常规字段值等等。
具体可支持探查如下内容:
探查范围 | 支持项 |
---|---|
表级 | 支持探查总记录数、主键去重记录数、确定主键唯一性。 |
字段级 | 查看枚举字段枚举值分布;查看字段去重后总量、空值/空串比例、最大长度、最大长度预览、最小长度、最小长度预览、最大值、最小值。 |
说明:目前所有项目成员都可以访问形态探查功能,但是仅能探查自己有读权限的表,不能操作其他人的形态探查任务。 |
任务创建
在形态探查页面的左上角提供了任务创建的入口,点击新建任务按钮进入创建页面。在任务创建过程中用户需要完成探查对象和规则的配置。
设置探查对象
探查对象包括数据源类型、库、表、分区筛选以及非分区过滤条件,其中库名称和表名称为必填项。形态探查将使用创建人的权限执行,无所选表的读权限则会运行失败。
探查模式目前支持两种:
- 表模式:探查的对象为已持久化到数据库的表;
- SQL模式:探查的对象为 SQL 产出的虚拟数据集,该数据尚未持久化到表。
非分区过滤条件:该功能常用的场景有用来进行时间参数的转换,例如,对于unixtime,可以通过from_unixtime(create_time, 'yyyy-MM-dd HH:mm:ss')='azkaban.flow.1.days.ago'代码进行转换。 |
基础信息处需要设置任务名称及描述。
设置规则
设置规则需要进行主键和各字段探查内容的设置。
- 对于主键设置,当指定主键时会探查主键的唯一性,不指定则不探查。支持探查联合主键的唯一性。
- 对于字段探查,系统会根据字段类型自动推荐需要配置的内容,探查内容包括枚举值、去重后总量、空值/空串比例、最大长度、最大长度预览、最小长度、最小长度预览、最大值以及最小值。
配置完上述内容后,可单击保存并运行按钮进行任务运行,也可以单击保存暂不运行任务,之后可在形态探查页面的列表中,单击运行按钮进行任务运行。
任务列表
任务列表操作
任务保存后,即会出现在任务列表中,用户可以点击表名跳转资产地图查看表详细信息,也可以点击运行,直接运行探查任务。
在任务列表中,单击最近一次执行结果可以查看最近一次执行成功的探查结果页面。
如果想要看全部历史运行结果,则可以点击操作列“更多”-“实例列表”,可以查看当前任务生成的历史实例。对状态为已完成的实例可单击运行结果或查看日志按钮查看探查结果以及任务运行日志。
探查结果
在实例详情页中,探查结果将包括以下内容:探查对象、任务参数信息、表级探查结果、枚举字段探查以及字段常规探查。
- 探查对象:包括库表名称、分区筛选以及非分区过滤条件信息。
- 任务参数信息:包括任务配置时配置的spark参数信息。
- 表级探查结果:包括总记录数、主键去重记录数、主键唯一性结论及哪些字段是主键。探查结论为主键不唯一时,也支持查看重复数据,帮助用户进一步判断主键字段。
- 枚举字段探查:如果在探查任务配置时,配置了枚举字段探查,就会出现该块内容,包括字段的枚举值和分布数据。
- 字段常规探查:根据配置的探查项反馈各字段的探查结果。若结果显示“-”,则表示无数据,若结果显示“X”,则表示未勾选此项进行比对。
主键探查
主键探查的入口有多个。除了直接运行探查任务,用户可以在任务列表中直接发起主键探查,也可以在查看最近一次执行结果的抽屉中发起主键探查并在探查页面直接查看探查结果,无需跳转实例列表。
在主键探查页面底部,可以直接查看探查结果。
以上内容对您是否有帮助?