整体说明

Hive表详情页支持展示Hive表的基础信息、业务信息、存储信息、字段信息、分区信息、数据预览、产出信息、数据血缘、读写记录、DDL变更、使用说明等。

此外,支持表类型(内部表、外部表)和表类别(离线表、分片表、增量表、流表)等信息展示。

对于表负责人、表所属项目负责人和管理员,支持修改表描述、表负责人、是否推荐表、是否核心表、字段描述、字段标准化标签(需要开启模型设计中心)、字段枚举值、字段口径等内容。此外,所有用户都可以收藏表。

表详情介绍

整个详情页分为两部分,顶部区域用来显示表名、负责人以及一些表的快捷操作;信息区则包含五大块内容,分别是描述信息、明细信息、数据预览、产出信息、数据血缘、使用说明、版本管理,以及数据质量等。
Hive - 图1

顶部区域

顶部区域显示了表名、表描述、推荐和核心表标记、收藏功能、表类型、技术负责人、业务负责人、热度数据(检索、收藏、引用、读取)、自助分析、查看DDL、查看Select语句、查看数据权限等。数据权限会显示当前账号对本表的数据权限,包括读、写、删、改表等,其中读权限控制粒度可以到字段级别。如果当前用户没有该表的权限,可直接点击申请数据权限进入安全中心进行表权限申请。
Hive - 图2

其中,Hive - 图3为快捷搜索入口,方便用户直接搜表,不需要返回搜索首页。

通过点击Hive - 图4,可查看当前表的DDL语句,支持一键复制。
Hive - 图5

点击Hive - 图6,可查看当前表的select语句,支持一键复制。
Hive - 图7

点击Hive - 图8会复制查询语句,并在新的标签页打开自助分析页面。

点击Hive - 图9可对当前表进行订阅。订阅后,表下线、表结构或属性信息发生变化则会收到邮件通知。

说明: 视图表支持修改表负责人。

描述信息

描述信息默认包括基础信息、业务信息、技术信息,如果当前表有扩展属性,此处还包括扩展属性信息。

基础信息部分,可查看表的所属库、所属项目、产出任务。
Hive - 图10

  • 在产出任务一栏中,点击查看,可查看产出任务信息。
    Hive - 图11

业务信息部分,可查看表的主题域、表的分层、下游影响、数据质量分、安全等级、数据权限、是否开启Impala同步、是否是推荐表、是否是核心表等。

  • 主题域和表分层需要开启模型设计中心才会显示该内容。
  • 数据质量分显示的分数为近7日表质量平均分(满分100分),对于超过7天调度周期的,则取最近一次,需要配置质量监控任务

Hive - 图12

技术信息可查看物理存储量、文件数、存储方式、位置、表/分区生命周期等信息。
Hive - 图13

当前支持在此处设置表/分区生命周期,设置时需要注意的是如下几点:
1)对于分区表,可修改表和分区生命周期,对于非分区表,仅可修改表生命周期;
2)生命周期到期后,对于内部表,系统将自动删除表元数据和目录文件;
3)对于外部表,系统将根据所选策略进行删除;
4)外部表的目录文件,需满足“分区路径处于表路径下”、“表路径未被其他表引用”两个条件才会删除。
Hive - 图14

明细信息

明细信息包括字段信息、分区信息、DDL变更、读写记录。

说明: 表的读写记录和DDL变更记录保留近3个月。
字段信息

在明细信息的字段信息页签中会显示当前表的字段名称、类型、描述等信息,如果归属到了主题域和分层,则还可以显示主键、字段的标准化标签。如果配置有枚举值和字段附加列也可在此处进行查看。
Hive - 图15

有编辑权限的成员,可以对字段设置枚举信息、口径信息,支持批量修改字段描述等。下图为编辑字段的页面:
Hive - 图16

根据表的类型不同,标准化标签所展示的内容也会不一样:

  • 如果当前表为dwd-明细表,则标准化标签会显示维度和度量;
  • 如果当前表为dim-维表,则标准化标签会显示维度;
  • 如果当前表为dws-汇总表、ads-应用层表,则标准化标签会显示维度和指标,且可显示表级别的间接关联指标

下图为可查看字段关联维度的维度标识,如果有关联的维表,还可点击查看维表详情:
Hive - 图17

在字段列表的操作列,也可选择任一字段查看字段血缘,点击血缘后会跳转到字段血缘页面。

注意: 当开启无度量模式时,dwd-明细表会关联指标,此时在数据地图中dwd层的表字段的标准化标签显示的也是指标。

在该页面还支持设置间接关联指标,关于间接关联指标可查看指标详情中关于表间接关联的解释。点击详情按钮,可在弹框中添加关联指标。
Hive - 图18

分区信息

如果当前Hive表为分区表,则会显示分区信息页签,展示表的分区信息。包括各分区的分区名、创建时间、修改时间、记录数、存储空间和文件数等信息,支持对表记录数、存储空间、文件数等进行刷新操作。
Hive - 图19

DDL变更

DDL变更列表会记录表的变更历史记录,仅支持查看近30天的DDL变更,来源包括离线开发的SQL节点和自助分析。变更类型包括新建表、删表、表重命名、新增列、修改列等近十种操作类型,DDL变更列表如下所示:
22 数据地图05.png

DDL变更可能导致下游任务出错,系统支持自动发送DDL变更通知:

  • 表级操作:删表、表重命名;
  • 字段级操作:字段重命名、字段类型变更;
  • 分区操作:修改分区值、删除分区。
DDL变更自动通知说明:对于自助分析和SQL节点中进行删表(不含表名中有“tmp”和“temp”的表)、表重名、表结构替换、字段重命名、修改分区值,如果表有下游,则会通知到表负责人和下游表负责人。
读写记录

读写记录可查看近30天表的读写记录,来源包括离线开发和自助分析的运行,支持展示操作时间、操作人、操作类型、执行语句信息,如下图所示:
Hive - 图21

数据预览

在该页签中,如果当前用户有该表的读权限,则可显示10条预览数据,如果没有权限,则会提示没有权限。
Hive - 图22

产出信息

如果有任务执行,将数据插入到当前表中,则可以在此处显示任务实例信息。目前支持如下场景:

  • 离线开发开发模式执行
  • 离线开发线上模式执行
  • 自助分析执行
  • 线上调度实例重跑
  • 线上调度任务补数据
  • 实时计算平台任务运行

产出历史标签页中,通过筛选日期可查看日期范围内的产出情况。
Hive - 图23

产出脚本标签页中,可查看线上环境已调度的任务脚本。
Hive - 图24

数据血缘

数据血缘支持表级血缘、字段级血缘(仅Hive字段支持),默认展示表级血缘。为了提供更好地用户体验,平台做了新版数据血缘,默认展示新版数据血缘,用户也可以点击“切换到旧版”来查看旧版血缘,后续旧版血缘将会下线。

新版血缘介绍
数据血缘介绍

新版数据血缘以表格的形式展示表的上下游节点,充分利用了页面空间,并且提升了血缘图的渲染性能,用户可以滚动查看节点,并且每层血缘均支持统计层数、节点数,帮助用户快速了解血缘的复杂度。

Hive - 图25

在该血缘图中,用户可以单击任一上下游节点,右侧会弹框展示该节点详情,同时该节点的整条血缘链路会高亮展示,如下图所示:
Hive - 图26

血缘图工具栏提供相关操作,具体如下:

  • 库表搜索:帮助用户快速搜索定位指定的表;
  • 血缘类型:支持用户筛选查看静默血缘、活跃血缘;
  • 图例:帮助用户理解血缘图;
  • 全屏:可全屏查看血缘图;
  • 下载:可下载当前页面展示的血缘数据,下载默认支持Excel;
  • 发送通知:可以通过血缘,将表的变更情况邮件通知给相关下游;
  • 刷新:若表或产出任务最近有变更,或者需要查看直接上游产出最慢和最晚的表,可点击手动刷新。
    Hive - 图27
说明: 目前表级血缘支持的类型包括:Hive、MySQL、Oracle、Vertica、Greenplum
全链路血缘

新版数据血缘节点类型支持源头业务系统、表、API、BI报告、指标和标签等类型。在血缘图中可展示表与表之间血缘、表与API之间血缘、表与BI报告之间血缘、表和上游业务系统血缘、表和下游指标/标签的血缘,实现全链路血缘。如下图所示:
Hive - 图28

Hive - 图29

Hive - 图30

手工血缘维护

一般情况下平台展示的血缘主要是来自离线开发、自助分析等执行SQL任务后解析得到的血缘关系,但在实际业务场景中,一些非SQL类任务或者SQL语法不支持解析血缘的场景下,血缘会断掉,导致影响评估决策。为了解决这类问题,平台新增手工录入血缘的功能,通过手工录入血缘,可以将一些表、指标、标签、API等节点挂载在表上,方便查看完整的血缘链路。

当表没有血缘时,此时需要人工维护血缘,此时可以点击添加上下游血缘,如下图所示:
Hive - 图31

当表已存在血缘但是血缘不够完整时,可以点击某个指定表,然后点击添加上下游血缘,如下图所示:
Hive - 图32

变更通知

之前血缘变更通知对象仅支持1层下游的表负责人,在血缘集成指标、标签、API、报告等功能后,血缘变更通知对象也同时支持下游的指标、标签、API、报告相关人员。除了新增通知对象外,本次还支持自定义指定通知人员,方便通知不在下游范围内的其他人员。表详情页点击发送变更通知,弹框里查看下游通知对象名单,且可增加指定通知对象,如下图所示:

Hive - 图33
Hive - 图34

旧版血缘介绍

旧版血缘支持切换关系视图、列表视图2种方式来查看表级血缘,字段级血缘目前仅支持列表视图。

关系视图

通过DAG图方式展示当前表的上下游表,可逐级向上查看上游血缘,向下查看下游血缘。同时,支持过滤活跃血缘或静默血缘。支持向下游表负责人发送通知,通知方式支持邮件、企业微信、钉钉等。一般用于当前表存在部分变更需要时,通知下游。

点击画布中的表名区块,会在右侧显示表的基本信息,支持快速前往查看该表的产出信息和下游影响信息。

  • 关系视图页面:
    Hive - 图35

  • 发送通知页面:
    Hive - 图36

当查看表的数据血缘时,可以查看上游依赖的表哪个产出最晚、哪个产出最慢。
Hive - 图37

通过该功能可以帮助用户快速定位当前表的产出时间受上游哪个表的影响最大,以便用户对任务进行优化,从而提高表的产出时间。

列表视图

通过列表方式展示当前表的上下游表,可逐级向上查看上游血缘,向下查看下游血缘。
Hive - 图38

下游任务

通过列表方式展示实际使用当前表的实例对应的任务信息。
Hive - 图39

字段血缘
新版字段血缘

之前旧版字段血缘仅能查看上下游1层血缘,不满足用户多层血缘探查的需求,且没有直观的DAG图来展示字段血缘关系。另外旧版血缘中默认展示断言血缘容易误导用户,综上,需要对旧版字段血缘进行重构。新版字段血缘重构后主要功能如下:

  • 支持可视化DAG图模式来清晰直观地展示字段间的血缘关系
  • 支持展开上下游多层字段血缘,方便用户追溯来源和下游影响链路
  • 支持默认查看映射血缘,也可以开启查看断言血缘,并且断言血缘有标识区分
  • 支持查看字段间的影响逻辑,可展示断言和映射的血缘逻辑
  • 支持按照表分组展示关联的字段血缘,可以展开和收起表
  • 支持设置是否展示字段的脱敏信息、敏感类型、安全中心

新版字段血缘页面如下所示:
Hive - 图40

补充说明:

  • 字段血缘不仅支持展示hive字段和字段之间的血缘,本版本新增字段和指标、标签、API之间的血缘,方便用户洞察字段的完整血缘信息。
旧版字段血缘

通过列表方式展示当前各个字段的上下游表及相关字段,可逐级向上查看上游字段血缘,向下查看下游字段血缘。
22 数据地图08.png

查看字段血缘的页面,也可发起字段粒度的通知,如下图所示:
2021-08-19-20-38-11.png

补充说明

当前支持同一job内的临时表删除后,仍然保持上下游表的血缘关系。例如当存在血缘关系为A→B→C,其中B是临时表,则同一Job里将B删除后,AC之间的血缘关系会保留。如下所示:

Hive - 图43

Hive - 图44

使用说明

使用说明模块可展示当前表的使用说明信息,该信息由表负责人维护。
2021-07-09-11-06-19.png

版本管理

前提:只有表创建了元数据采集任务后,系统可检测表结构变更情况,才能展示版本管理信息。 版本管理模块可展示表的历史版本号,可查看历史版本详情、2个版本间的对比。版本列表如下所示:
Hive - 图46

查看版本详情,展示内容包括表描述信息、字段信息等。

数据质量

前提:在数据质量中心对表设置了质量监控稽核任务的表,才能在地图的表详情页展示质量报告信息。
表的数据质量报告展示内容如下图所示:
Hive - 图47

数据探查

  • 功能介绍

    • Hive表详情页新增数据探查的模块,可以查看表的探查记录,包括总记录数、去重记录数、主键字段、枚举字段值分布、各字段最大最小值、null值数和占比等
  • 注意事项

    • 仅Hive表支持查看数据探查内容
    • 数据探查内容需要先在数据质量中心创建过形态探查任务后,才会展示探查结果
    • 仅表所在项目的项目成员和有表读权限的人,才可查看探查内容,避免存在数据安全问题

Hive - 图48