支持展示Hive表的基础信息、业务信息、存储信息、字段信息、分区信息、数据预览、产出信息、数据血缘、读写记录、DDL变更、使用说明等。

此外,支持表类型(内部表、外部表)和表类别(离线表、分片表、增量表、流表)等信息展示。如果Hive是外部表、onkudu或者onHbase,也会展示对应的图标。

对于表负责人、表所属项目负责人和管理员,支持修改表描述、表负责人、是否推荐表、是否核心表、字段描述、字段标准化标签(需要开启模型设计中心)、字段枚举值、字段口径等内容。此外,所有用户都可以收藏表。

下图为表详情的页面:
Hive - 图1

表详情详细介绍


顶部区域

顶部区域显示了表名、表描述、推荐和核心表标记、收藏功能、表类型、热度数据(检索、收藏、引用、读取)、自助分析、查看DDL、查看Select语句、查看数据权限等。数据权限会显示当前账号对本表的数据权限,包括读、写、删、改表等,其中读权限控制粒度可以到字段级别。如果当前用户没有该表的权限,可前往安全中心进行表权限申请。
Hive - 图2

其中,Hive - 图3为快捷搜索入口,方便用户直接搜表,不需要返回搜索首页。

左侧信息区

左侧显示了基础信息、业务信息、存储信息。

基础信息部分,可查看表的所属库、所属项目、产出任务。
Hive - 图4

  • 在产出任务一栏中,点击查看,可查看产出任务信息。
    Hive - 图5

业务信息部分,可查看表的主题域、表的分层、下游影响、数据质量分、安全等级、数据权限、是否开启Impala同步、是否是推荐表、是否是核心表等。

  • 主题域和表分层需要开启模型设计中心才会显示该内容。
  • 数据质量分显示的分数为近7日表质量平均分(满分100分),对于超过7天调度周期的,则取最近一次,需要配置质量监控任务

Hive - 图6

存储信息可查看物理存储量、文件数、存储方式、位置、表/分区生命周期等信息。
Hive - 图7

右侧表信息区

右侧表信息区共包含五大块内容:明细信息、数据预览、产出信息、数据血缘以及使用说明。

明细信息


明细信息包括字段信息、分区信息、DDL变更、读写记录。

字段信息

在明细信息的字段信息页签中会显示当前表的字段名称、类型、描述等信息,如果归属到了主题域和分层,则还可以显示主键、字段的标准化标签。如果配置有枚举值和字段附加列也可在此处进行查看。
2021-08-19-19-56-52.png

有编辑权限的成员,可以对字段设置枚举信息、口径信息,支持批量修改字段描述等。下图为编辑字段的页面:
22 数据地图04.png

根据表的类型不同,标准化标签所展示的内容也会不一样:

  • 如果当前表为dwd-明细表,则标准化标签会显示维度和度量;
  • 如果当前表为dim-维表,则标准化标签会显示维度;
  • 如果当前表为dws-汇总表、ads-应用层表,则标准化标签会显示维度和指标,且可显示表级别的间接关联指标

下图为可查看字段关联维度的维度标识,如果有关联的维表,还可点击查看维表详情:
2021-08-19-20-00-15.png

在字段列表的操作列,也可选择任一字段查看字段血缘,点击血缘后会跳转到字段血缘页面。

注意: 当开启无度量模式时,dwd-明细表会关联指标,此时在数据地图中dwd层的表字段的标准化标签显示的也是指标。

分区信息

如果当前Hive表为分区表,则会显示分区信息页签,展示表的分区信息。包括各分区的分区名、创建时间、修改时间、记录数、存储空间和文件数等信息,支持对表记录数、存储空间、文件数等进行刷新操作。
Hive - 图11

DDL变更

DDL变更列表会记录表的变更历史记录,仅支持查看近30天的DDL变更,来源包括离线开发的SQL节点和自助分析。变更类型包括新建表、删表、表重命名、新增列、修改列等近十种操作类型,DDL变更列表如下所示:
22 数据地图05.png

DDL变更可能导致下游任务出错,系统支持自动发送DDL变更通知:

  • 表级操作:删表、表重命名;
  • 字段级操作:字段重命名、字段类型变更;
  • 分区操作:修改分区值、删除分区。
DDL变更自动通知说明:对于自助分析和SQL节点中进行删表(不含表名中有“tmp”和“temp”的表)、表重名、表结构替换、字段重命名、修改分区值,如果表有下游,则会通知到表负责人和下游表负责人。

读写记录

读写记录可查看近30天表的读写记录,来源包括离线开发和自助分析的运行,支持展示操作时间、操作人、操作类型、执行语句信息,如下图所示:
Hive - 图13

数据预览


在该页签中,如果当前用户有该表的读权限,则可显示10条预览数据,如果没有权限,则会提示没有权限。
2021-07-08-11-54-07.png

产出信息


如果有任务执行,将数据插入到当前表中,则可以在此处显示任务实例信息。目前支持如下场景:

  • 离线开发开发模式执行
  • 离线开发线上模式执行
  • 自助分析执行
  • 线上调度实例重跑
  • 线上调度任务补数据
  • 实时计算平台任务运行

产出历史标签页中,通过筛选日期可查看日期范围内的产出情况。
Hive - 图15

产出脚本标签页中,可查看线上环境已调度的任务脚本。
Hive - 图16

数据血缘


数据血缘支持表级血缘、字段级血缘(仅Hive字段支持),默认展示表级血缘,可切换关系视图、列表视图2种方式来查看表级血缘,字段级血缘目前仅支持列表视图。

关系视图

通过DAG图方式展示当前表的上下游表,可逐级向上查看上游血缘,向下查看下游血缘。同时,支持过滤活跃血缘或静默血缘。支持向下游表负责人发送通知,通知方式支持邮件、企业微信、钉钉等。一般用于当前表存在部分变更需要时,通知下游。

点击画布中的表名区块,会在右侧显示表的基本信息,支持快速前往查看该表的产出信息和下游影响信息。

  • 关系视图页面:
    22 数据地图06.png

  • 发送通知页面:
    22 数据地图07.png

列表视图

通过列表方式展示当前表的上下游表,可逐级向上查看上游血缘,向下查看下游血缘。
2021-07-08-16-17-03.png

下游任务

通过列表方式展示实际使用当前表的实例对应的任务信息。
Hive - 图20

字段血缘

通过列表方式展示当前各个字段的上下游表及相关字段,可逐级向上查看上游字段血缘,向下查看下游字段血缘。
22 数据地图08.png

查看字段血缘的页面,也可发起字段粒度的通知,如下图所示:
2021-08-19-20-38-11.png

补充说明

当前支持同一job内的临时表删除后,仍然保持上下游表的血缘关系。例如当存在血缘关系为A→B→C,其中B是临时表,则同一Job里将B删除后,AC之间的血缘关系会保留。如下所示:

38 01.png

38 02.png

使用说明


使用说明模块可展示当前表的使用说明信息,该信息由表负责人维护。
2021-07-09-11-06-19.png