Hive
支持展示Hive表的基础信息、业务信息、存储信息、字段信息、分区信息、数据预览、产出信息、数据血缘、读写记录、DDL变更、使用说明等。
此外,支持表类型(内部表、外部表)和表类别(离线表、分片表、增量表、流表)等信息展示。如果Hive是外部表、onkudu或者onHbase,也会展示对应的图标。
对于表负责人、表所属项目负责人和管理员,支持修改表描述、表负责人、是否推荐表、是否核心表、字段描述、字段标准化标签(需要开启模型设计中心)、字段枚举值、字段口径等内容。此外,所有用户都可以收藏表。
下图为表详情的页面:
表详情介绍
整个详情页分为两部分,顶部区域用来显示表名、负责人以及一些表的快捷操作;信息区则包含五大块内容,分别是描述信息、明细信息、数据预览、产出信息、数据血缘以及使用说明。
顶部区域
顶部区域显示了表名、表描述、推荐和核心表标记、收藏功能、表类型、热度数据(检索、收藏、引用、读取)、自助分析、查看DDL、查看Select语句、查看数据权限等。数据权限会显示当前账号对本表的数据权限,包括读、写、删、改表等,其中读权限控制粒度可以到字段级别。如果当前用户没有该表的权限,可直接点击申请数据权限进入安全中心进行表权限申请。
其中,为快捷搜索入口,方便用户直接搜表,不需要返回搜索首页。
通过点击,可查看当前表的DDL语句,支持一键复制。
点击,可查看当前表的select语句,支持一键复制。
点击会复制查询语句,并在新的标签页打开自助分析页面。
点击可对当前表进行订阅。订阅后,表下线、表结构或属性信息发生变化则会收到邮件通知。
说明: 视图表支持修改表负责人。 |
描述信息
描述信息默认包括基础信息、业务信息、技术信息,如果当前表有扩展属性,此处还包括扩展属性信息。
基础信息部分,可查看表的所属库、所属项目、产出任务。
- 在产出任务一栏中,点击查看,可查看产出任务信息。
业务信息部分,可查看表的主题域、表的分层、下游影响、数据质量分、安全等级、数据权限、是否开启Impala同步、是否是推荐表、是否是核心表等。
- 主题域和表分层需要开启模型设计中心才会显示该内容。
- 数据质量分显示的分数为近7日表质量平均分(满分100分),对于超过7天调度周期的,则取最近一次,需要配置质量监控任务。
技术信息可查看物理存储量、文件数、存储方式、位置、表/分区生命周期等信息。
当前支持在此处设置表/分区生命周期,设置时需要注意的是如下几点:
1)对于分区表,可修改表和分区生命周期,对于非分区表,仅可修改表生命周期;
2)生命周期到期后,对于内部表,系统将自动删除表元数据和目录文件;
3)对于外部表,系统将根据所选策略进行删除;
4)外部表的目录文件,需满足“分区路径处于表路径下”、“表路径未被其他表引用”两个条件才会删除。
明细信息
明细信息包括字段信息、分区信息、DDL变更、读写记录。
说明: 表的读写记录和DDL变更记录保留近3个月。 |
字段信息
在明细信息的字段信息页签中会显示当前表的字段名称、类型、描述等信息,如果归属到了主题域和分层,则还可以显示主键、字段的标准化标签。如果配置有枚举值和字段附加列也可在此处进行查看。
有编辑权限的成员,可以对字段设置枚举信息、口径信息,支持批量修改字段描述等。下图为编辑字段的页面:
根据表的类型不同,标准化标签所展示的内容也会不一样:
- 如果当前表为dwd-明细表,则标准化标签会显示维度和度量;
- 如果当前表为dim-维表,则标准化标签会显示维度;
- 如果当前表为dws-汇总表、ads-应用层表,则标准化标签会显示维度和指标,且可显示表级别的间接关联指标。
下图为可查看字段关联维度的维度标识,如果有关联的维表,还可点击查看维表详情:
在字段列表的操作列,也可选择任一字段查看字段血缘,点击血缘后会跳转到字段血缘页面。
注意: 当开启无度量模式时,dwd-明细表会关联指标,此时在数据地图中dwd层的表字段的标准化标签显示的也是指标。 |
在该页面还支持设置间接关联指标,关于间接关联指标可查看指标详情中关于表间接关联的解释。点击详情按钮,可在弹框中添加关联指标。
分区信息
如果当前Hive表为分区表,则会显示分区信息页签,展示表的分区信息。包括各分区的分区名、创建时间、修改时间、记录数、存储空间和文件数等信息,支持对表记录数、存储空间、文件数等进行刷新操作。
DDL变更
DDL变更列表会记录表的变更历史记录,仅支持查看近30天的DDL变更,来源包括离线开发的SQL节点和自助分析。变更类型包括新建表、删表、表重命名、新增列、修改列等近十种操作类型,DDL变更列表如下所示:
DDL变更可能导致下游任务出错,系统支持自动发送DDL变更通知:
- 表级操作:删表、表重命名;
- 字段级操作:字段重命名、字段类型变更;
- 分区操作:修改分区值、删除分区。
DDL变更自动通知说明:对于自助分析和SQL节点中进行删表(不含表名中有“tmp”和“temp”的表)、表重名、表结构替换、字段重命名、修改分区值,如果表有下游,则会通知到表负责人和下游表负责人。 |
读写记录
读写记录可查看近30天表的读写记录,来源包括离线开发和自助分析的运行,支持展示操作时间、操作人、操作类型、执行语句信息,如下图所示:
数据预览
在该页签中,如果当前用户有该表的读权限,则可显示10条预览数据,如果没有权限,则会提示没有权限。
产出信息
如果有任务执行,将数据插入到当前表中,则可以在此处显示任务实例信息。目前支持如下场景:
- 离线开发开发模式执行
- 离线开发线上模式执行
- 自助分析执行
- 线上调度实例重跑
- 线上调度任务补数据
- 实时计算平台任务运行
在产出历史标签页中,通过筛选日期可查看日期范围内的产出情况。
在产出脚本标签页中,可查看线上环境已调度的任务脚本。
数据血缘
数据血缘支持表级血缘、字段级血缘(仅Hive字段支持),默认展示表级血缘,可切换关系视图、列表视图2种方式来查看表级血缘,字段级血缘目前仅支持列表视图。
关系视图
通过DAG图方式展示当前表的上下游表,可逐级向上查看上游血缘,向下查看下游血缘。同时,支持过滤活跃血缘或静默血缘。支持向下游表负责人发送通知,通知方式支持邮件、企业微信、钉钉等。一般用于当前表存在部分变更需要时,通知下游。
点击画布中的表名区块,会在右侧显示表的基本信息,支持快速前往查看该表的产出信息和下游影响信息。
关系视图页面:
发送通知页面:
血缘产出状态
当查看表的数据血缘时,可以查看上游依赖的表哪个产出最晚、哪个产出最慢。
通过该功能可以帮助用户快速定位当前表的产出时间受上游哪个表的影响最大,以便用户对任务进行优化,从而提高表的产出时间。
列表视图
通过列表方式展示当前表的上下游表,可逐级向上查看上游血缘,向下查看下游血缘。
下游任务
通过列表方式展示实际使用当前表的实例对应的任务信息。
字段血缘
通过列表方式展示当前各个字段的上下游表及相关字段,可逐级向上查看上游字段血缘,向下查看下游字段血缘。
查看字段血缘的页面,也可发起字段粒度的通知,如下图所示:
补充说明
当前支持同一job内的临时表删除后,仍然保持上下游表的血缘关系。例如当存在血缘关系为A→B→C,其中B是临时表,则同一Job里将B删除后,AC之间的血缘关系会保留。如下所示:
使用说明
使用说明模块可展示当前表的使用说明信息,该信息由表负责人维护。
以上内容对您是否有帮助?