健康诊断从项目组、项目和当前用户视角,展示资产健康分健康分历史趋势待治理负责人排行榜以及健康分待治理项等内容。

项目组总览


资产健康分

展示项目组的资产健康分,总分100,由计算(40%)、存储(40%)、价值(10%)和规范(10%)健康分折算后构成。
健康诊断 - 图1

项目健康分

展示项目组中健康分最低的5个项目。
健康诊断 - 图2

健康分历史趋势

展示项目组健康分的变化趋势,支持通过近7天、近30天以及30天范围内任意时间进行筛选,右侧饼状图展示各项目的健康分情况。
健康诊断 - 图3

项目总览


资产健康分

展示当前项目的资产健康分,总分100,由计算(40%)、存储(40%)、价值(10%)和规范(10%)健康分折算后构成。
健康诊断 - 图4

待治理离线任务数

展示当前项目下待治理离线任务数、日环比以及占全部离线任务比重。
健康诊断 - 图5

待治理表数

展示当前项目待治理表数、日环比以及占全部表比重。
健康诊断 - 图6

健康分历史趋势

展示当前项目健康分的变化趋势,支持通过近7天、近30天以及30天范围内任意时间进行筛选。
健康诊断 - 图7

待治理负责人排行榜

以计算、存储、价值、规范四个维度展示当前项目下待治理负责人的累计扣分等情况。

  • 计算
    健康诊断 - 图8
    任务总数项的数字对应健康分待治理项中的计算页签,点击具体的数字,在健康分待治理项计算页签会根据任务负责人进行筛选。
    健康诊断 - 图9

  • 存储
    同计算页签一样,存储页签也对应健康分待治理项中的存储页签。
    健康诊断 - 图10

  • 价值
    健康诊断 - 图11

  • 规范
    健康诊断 - 图12

健康分待治理项

此处将会展示计算、存储、价值以及规范四个角度下,任务扣分的详细情况,列举待治理项,点击查看详情展示待治理项的使用情况,支持根据csv或txt格式进行单个或批量任务导出。

  • 计算
    健康诊断 - 图13

  • 存储
    健康诊断 - 图14

  • 价值
    健康诊断 - 图15

  • 规范
    健康诊断 - 图16

说明:对于自助分析任务,同一个Query实例聚合展示。

个人总览


个人总览页面展示个人的资产健康分、待治理离线任务数、待治理表数、健康分历史趋势以及健康分待治理项,具体图示可参考项目总览,这里不再复述。

补充说明


健康分规则说明

此处将根据计算、存储、价值、规范四个维度进行健康分的规则说明,其中计算健康分规则分为调度任务和自助分析。

计算健康分 - 调度任务

序号 规则 说明 权重 扣分原则
1 超长任务 任务实例的运行时长大于10小时 30分 运行时长超过10h小时的任务实例数量大于1且比例小于等于1%,扣2分,达到2%,扣4分,达到30%即扣完
2 无效计算 产出的表为当前项目中推荐下线表 10分 任务产出的表为推荐下线表,此类任务的数量大于1且比例小于等于2%,扣2分,达到4%,扣4分,达到20%即扣完
3 异常计算1 近30天任务无产出表 10分 近30天,任务无数据表产出,此类任务的数量大于1且比例小于等于2%,扣2分,达到4%,扣4分,达到20%即扣完
4 异常计算2 近7天任务持续出错,且没有配置报警 10分 近7天,任务持续出错,且有配置报警,任务数量大于1且比例小于等于2%,扣2分,达到4%,扣4分,达到20%即扣完
5 异常计算3 近7天任务持续出错,且没有配置报警 20分 近7天持续出错且没有配置告警的任务数量大于1且比例小于等于1%,扣2分,达到2%,扣4分,达到20%即扣完
6 异常计算4 近7天任务实例出错率达50% 20分 近7天任务实例出错率达50%数量大于1且比例小于等于1%,扣2分,达到2%,扣4分,达到20%即扣完

计算健康分 - 自助分析

序号 规则 说明 权重 扣分原则
1 超长Adhoc查询 最新统计日期下,单次执行耗时超过10分钟的Adhoc查询任务实例 40分 单次执行耗时超过10分钟的Adhoc查询任务实例数量大于1且比例小于等于1%,扣2分,达2%,扣4分,达到40%即扣完
2 单次Adhoc查询费用高 最新统计日期下,单次Adhoc查询费用超过1元的任务实例,即单次消耗CPU和内存较多 30分 单次Adhoc查询费用超过1元的任务实例大于1且比例小于等于1%,扣2分,达2%,扣4分,达到30%即扣完
3 Adhoc异常计算 最新统计日期下,存在Adhoc查询失败的实例 30分 最新统计日期下,Adhoc查询失败的实例数量大于1且比例小于等于1%,扣2分,达2%,扣4分,达到30%即扣完

存储健康分

序号 规则 说明 权重 扣分原则
1 空表 表为空表,不占用存储空间,存储量为0,但没有被删除 10分 存在空表,数量大于1且比例小于等于2%,扣2分,达到4%,扣4分,达到20%即扣完
2 推荐下线表 项目:存在推荐下线表未处理 30分 项目存在推荐下线表,数量大于1且比例小于等于3%,扣2分,达到10%,扣4分,达到90%即扣完
个人:存在推荐下线表未处理 35分 个人存在推荐下线表,数量大于1且比例小于等于2%,扣2分,达到10%,扣4分,达到70%即扣完
3 表存储格式为txt 表未压缩,建议parquet/orc,非txt 20分 Hive表存储格式为txt,数量大于1且比例小于等于5%,扣2分,达到10%,扣4分,达到100%即扣完
4 未设置生命周期 表未设置生命周期,同时提供入口,可以选择将表加入”永久保存”的白名单 20分 未设置生命周期的表数量大于1且比例小于等于10%,扣2分,达到20%,扣4分,达到100%即扣完
5 表未分区 表规范化都是需要设置分区的,创建表时需设置分区 5分 存在表为非分区表,数量大于1且比例小于等于5%,扣2分,达到10%,扣4分,达到25%即扣完
6 未管理表 表没有负责人,负责人为”—“或项目名称,仅项目健康分有此指标 5分 存在表负责人为空或项目,数量大于1且比例小于等于5%,扣2分,达到10%,扣4分,达到25%即扣完
7 分区数量大3W的表 表的分区数量大于3W 10分 存在分区数量大于3W的表,表数量大于1且比例小于等于10%,扣1分,达20%,扣2分,达到100%即扣完

价值健康分

序号 规则 说明 权重 扣分原则
1 闲置API 数据服务中存在待下线API,发布成功但从未被调用 15分 API数量大于1且比例小于等于5%,扣5分,达到10%,扣10分,达到15%即扣完
2 异常API 数据服务,近30天内存在调用异常的API,包括超时等原因造成的调用失败 15分 API数量大于1且比例小于等于5%,扣5分,达到10%,扣10分,达到15%即扣完
3 闲置指标 指标系统中存在创建成功,但在近30天内,未被其他指标引用,也未在其他产品中应用的指标 10分 指标数量大于1且比例小于等于10%,扣5分,达到20%即扣完
4 闲置报告 有数BI中存在日PV和UV均为0 ,且最近修改时间在30天之前的报告 60分 报告数量大于1且比例小于等于5%,扣5分,达到10%,扣10分,达到100%即扣完

规范健康分

序号 规则 说明 权重 扣分原则
1 模型跨ODS层依赖 ODS层的表,一级下游表中含有除DWD和DIM之外的其他层的表 40分 表数量大于1且比例小于等于2%,扣5分,达到4%,扣10分,达到16%即扣完
2 不规范的模型分层引用 针对模型设计中心的系统分层,一级下游表中:
1. DWD层表依赖了非ODS层的表;
2. DWS层表依赖了非DWD和DIM层的表;
3. ADS层表依赖了非DWS层的表
60分 表数量大于1且比例小于等于2%,扣5分,达到4%,扣10分,达到24%即扣完

治理项优化建议

针对计算、存储、价值、规范分别给出优化建议。
计算优化建议

序号 规则 治理依据 优化建议
1 超长任务 任务实例的运行时长大于10小时,对下游依赖、系统资源等均会产生影响,需关注并优化 相关负责人需定位任务实例查看具体原因,若因数据量等而导致超长执行,建议加入白名单,不再作为健康分扫描项
2 产出表为推荐下线表 推荐下线表即在扫描周期内文件open次数(仅读取,不含写入)、访问次数和日均表引用数均为0,若任务产出的表为当前项目中推荐下线表,建议优化 核对任务是否还有保留的必要,若没有,可考虑将任务进行下线处理
3 近30天无产出表 近30天内,任务无产出表 此处的规则仅针对任务是否有产出表,若任务虽未产出表,但存在被下游依赖等情况,建议加入白名单,不再作为健康分扫描项
4 近7天持续出错且配置报警 任务持续出错且有发送报警,但7天内仍未被处理,有可能存在负责人离职等情况,需关注并治理 若任务负责人存在离职等情况,可由管理员直接处理或在”任务运维中心-任务列表“转交任务,重新指定任务负责人进行治理
5 近7天持续出错且未配置报警 近7天内,任务持续出错且没有配置报警,可能会影响下游依赖或带来严重的业务影响等问题,需关注 相关负责人对任务配置出错或延时报警规则
6 近7天实例出错率达50% 近7天内,任务实例出错率达50%,若长期运行会造成大量资源的浪费,且有可能影响下游数据产出和使用,需特别关注 查看失败任务实例报错日志,相关负责人定位原因并修复,如有需要可进行重跑或补数据操作
7 超长Adhoc 可能由于系统或SQL语法等原因,导致单次Adhoc查询执行耗时超过10分钟,需关注 需任务负责人关注,定位是否由系统故障引起,或查看SQL语句是否可优化
8 单次Adhoc费用高 单次Adhoc查询费用超过1元的任务 可对于执行时间短但费用较高的Adhoc查询重点关注,查看SQL语句是否可优化
9 Adhoc异常计算 最新统计日期下,存在Adhoc查询失败的实例,造成计算资源的浪费,若SQL中有建表语句,也会占据部分存储资源 可查看错误Adhoc的日志,定位原因,吸取经验,减少资源浪费的情况

存储优化建议

序号 规则 治理依据 优化建议
1 空表 表的物理存储大小为0,建议清理,防止表数量的膨胀 表负责人可核对表是否还有保留的必要,若没有,建议对空表进行删除
2 推荐下线表 推荐下线表即在扫描周期内文件open次数(仅读取,不含写入)、访问次数和日均表引用数均为0,建议项目/个人对此类表进行治理,以节省存储空间 表负责人可在”数据资产中心-存储分析-推荐下线表”列表中,对表二次确认后,执行下线操作,系统会自动对表元数据和目录文件进行处理
3 表存储格式为txt 表未压缩,若txt格式的表数量众多,会占用较多存储空间,建议优化 表负责人可将txt转化为parquet/orc存储,后续在建表时需规范化指定存储格式
4 未设置生命周期 未设置生命周期的表,数据会一直保留,数据量逐渐膨胀,带来存储上的浪费 表负责人可在”数据资产中心-存储分析-生命周期管理”列表中,对表设置生命周期,若表是需要永久保存的,建议加入”永久保存白名单”,不再作为健康分扫描项
5 表未分区 分区表有利于提高数据查询效率,建议大数据量表进行分区设置 表负责人可将大数据量的非分区表转换为分区表,后续在建表时需规范化指定分区方式
6 未管理表 项目视角下,表没有具体的负责人,负责人为”—“或项目名称,导致表无专人治理,占据存储空间 项目管理员可在”数据资产中心-存储分析-Hive表详情”中,针对负责人为”—“或项目名称的表进行”修改表负责人”操作,指定专人对此种表进行治理
7 分区数量大3W的表 表的分区数量大于3W,有可能存在小文件或不规范命名的问题,带来存储的浪费 表负责人可定位具体原因,设置表分区生命周期或定期清除策略,在表分区命名上规范化定义

价值优化建议

序号 规则 治理依据 优化建议
1 闲置API 数据服务中存在待下线API,发布成功但从未被调用,建议关注 API创建者或对API有管理权限的用户,可至”数据服务”产品中查看闲置API详情,核对API是否还有保留的必要,若没有,可考虑将API下线删除
2 异常API 数据服务,近30天内存在调用异常的API,包括超时等原因造成的调用失败,需要治理 API创建者或对API有管理权限的用户,可至”数据服务”产品中查看异常API详情,定位调用异常的具体原因,以免影响业务方使用
3 闲置指标 指标系统中存在创建成功,但在近30天内,未被其他指标引用,也未在其他产品中应用的指标,建议关注 指标创建者或对指标有管理权限的用户,可至”指标系统”产品中查看指标详情,核对指标是否还有保留的必要,若没有,可考虑将指标删除
4 闲置报告 有数BI中存在日PV和UV均为0 ,且最近修改时间在30天之前的报告,建议治理 报告创建人或对报告有管理权限的用户,可至”价值分析—数据报表分析”模块中查看报告关联数据表,确认关联表是否可下线处理,还可至有数BI中定位报告,核对报告是否可删除,对表和报告均做治理

规范优化建议

序号 规则 治理依据 优化建议
1 模型跨ODS层依赖 ODS层的表,一级下游表中含有除DWD和DIM之外的其他层的表,建议治理 跨ODS层依赖的下游表的负责人,可至”模型设计中心”产品中查看表设计,还可至”数据地图”中定位表,根据血缘关系重新调整表依赖,建设规范的数据仓库
2 不规范的模型分层引用 针对模型设计中心的系统分层,一级下游表中:
1.DWD层表依赖了非ODS层的表;
2. DWS层表依赖了非DWD和DIM层的表;
3. ADS层表依赖了非DWS层的表。
建议优化
不规范分层引用中,上游表负责人可至”模型设计中心”产品中查看表设计,还可至”数据地图”定位表,根据表血缘调整表依赖,建设规范的数据仓库