核心概念:理解DQC的三大支柱

在开始实践前,您需要理解三个核心概念,它们构成了质量监控的基石,是理解DQC的三大支柱。

① 监控对象:您需要实施质量保障的数据实体,即具体的数据库表。这是所有质量规则的承载主体。

② 质量规则:衡量数据好坏的标尺。规则为数据定义了具体的“健康指标”,主要涵盖以下几个方面:

  • 完整性:关键业务字段是否为空?(如用户ID、订单号)
  • 准确性:数据值是否在合理范围内?(如年龄大于0,金额不小于0)
  • 唯一性:主键或关键业务标识是否重复?(如身份证号唯一)
  • 一致性:数据在不同时间点或不同表间的逻辑关系是否一致?(如子表记录必须在主表中存在)
  • 及时性:数据是否在预定时间内产出?

③ 规则强度:规则被违反时的管控策略,是质量控制的关键阀门。

  • 强规则:规则不通过则任务失败并告警。适用于零容忍的核心业务规则(如交易金额不能为负),是阻断问题扩散的第一道防线。
  • 弱规则:规则不通过仅告警但任务继续执行。适用于观察预警类规则(如数据量的轻微波动),起到提示作用。

行动指南:数据质量中心三部曲

我们建议您遵循“探查-监控-比对”的渐进式路径,逐步构建数据质量保障体系。

第1步:数据探查——为新表做一次“全身体检”

核心目标:快速掌握未知数据的整体形态与潜在风险。

何时使用?

  • 接手新的数据源或数据表时。
  • 数据开发前,了解数据分布、空值率、主键唯一性等。

操作指引:

进入【形态探查】功能,选择目标表并运行。系统将自动生成一份包含表级概览(总行数、主键唯一性)和字段级详情(去重值、空值比例、最大/最小值等)的综合性报告。这是您评估数据状态的首选工具。

入门使用指南 - 图1

详情操作步骤请点击查看:形态探查

第2步:质量监控——为核心资产配备“全天候保镖”

这是DQC最核心的功能,目标是建立主动预警系统。

核心目标:对核心资产进行持续自动化校验。

何时使用?

  • 针对某些业务表需要进行数据质量的监控,比如避免表数据为空、数据重复等

操作指引:

  1. 创建任务:【任务管理】->【质量监控】->【新建】,选定表。

  2. 启用存储异常数据样本(仅部分数据元类型支持):在基础信息中,可开启【储存异常数据样本】。规则报错时,DQC会自动保存问题数据,让您能直接查看异常明细,极大提升排查效率。

  3. 配置规则(从简开始):

    • 使用【模板规则】,这是最快的方式。
    • 首次配置,建议优先设置两条基础强规则:

      1)表级唯一性校验中的主键唯一性:防止数据出现重复。

      2)表级唯一性校验中的表行数:基于每天的数据情况,设置合理的期望范围,防止数据大规模丢失也无法感知。

  4. 务必试跑!点击 “试跑”,在开发环境验证规则配置是否正确、结果是否符合预期。这是确保监控有效性的关键步骤,切勿跳过。

  5. 上线与告警:试跑成功后,将监控任务与调度系统绑定,并配置告警通知(邮件、消息通知等方式),确保问题能第一时间触达负责人。

入门使用指南 - 图2

详情操作步骤请点击查看:质量监控

第3步:数据比对——重大变更后的“安全验收”

核心目标:在数据模型重构、ETL逻辑变更或数据迁移后,进行一致性校验,确保变更无误。

何时使用?

  • 新旧两套数据加工逻辑的结果比对。
  • 数据迁移后的一致性验证。

操作指引:

  • 进入【数据比对】功能,选择源表与目标表,配置比对字段。DQC将提供一份详尽的差异分析报告,是数据重大变更时的 “安全验收”工具。

入门使用指南 - 图3

详情操作步骤请点击查看:数据比对

进阶功能

当您熟练掌握基础操作后,可以进一步探索DQC的进阶功能,实现体系化治理:

  • 质量度量:利用【质量大屏】宏观把握数据健康度。
  • 质量报告:利用【质量报告】定期生成和推送项目或表级的质量分数与异常明细,实现对数据健康度的持续跟踪与量化管理。
  • 闭环管理:通过【问题管理】模块,跟踪质量问题的处理全过程。
  • 标准化:在【规则模板】中沉淀最佳实践,实现团队质量规范的统一。

数据质量是迭代出来的,而非一蹴而就。成功的起点在于:选择一张核心表,配置几条关键规则,并让监控流程自动运转起来。通过本指南的实践循环,您将逐步构建起坚实的数据质量防线!