数据比对

1 数据比对列表

数据比对部分,支持比对任务列表展示,包括任务ID、任务名称、最新实例信息、最新实例状态、创建人、创建时间等信息展示。在操作上,支持按照任务的配置信息,运行数据比对任务。也支持查看、编辑、删除、克隆该任务。

如下图,为数据比对列表:

“数据比对” - 图1 2021-06-30-17-46-00.png

2 新建数据比对任务

数据比对新建任务入口在左上角“新建任务”中,在新建页面,可选择需要进行数据比对的源表和比对表。对于每个表,都支持配置分区(如果是分区表)和非分区过滤。并且会自动帮助生成任务名称。

如下图,为新建数据比对任务页面:

“数据比对” - 图3 2021-06-30-17-50-17.png

“数据比对” - 图5 2021-06-30-17-50-41.png

设置完比对表的基本信息后,可进行“字段映射及比对设置”。需要设置执行队列、结果存储位置、比对方式、关联模式、源表主键、字段映射。

其中,“结果存储位置”指最终比对结果数据量过大时,需要在那个库中创建临时表进行存储。比对方式,支持全量比对和抽样比对。关联模式,支持主键关联和MD5关联,具体的差异已在前文产品概述中说明。

对于源表主键,也是和数据地图的主键打通,此处源表的主键会被自动设置上,用户也可修改。

对于字段映射部分,在“主键关联”模式下,主键必须作为比对字段。用户可按需选择需要进行字段比对的源表字段,并选择比对表要比对的字段。这里,系统会自动按照字段名称进行映射选择,用户也可以自行修改。如果没有映射到的字段,需要用户手动指定。对于字段比对,支持一些忽略项设置,主要是针对两个表设计上有差异时可按需配置,目前支持设置“忽略0、空值、空串间差异”、“忽略字段类型”和“忽略精度差异(小于1e-7)”。

在“MD5关联”模式下,则不需要指定主键,系统会根据用户选择的比对字段进行拼接,并计算MD5值,之后进行关联比对。在“MD5关联”模式下,系统也会自动按照字段名称进行映射选择,用户也可以自行修改。如果没有映射到的字段,需要用户手动指定。在忽略项设置上,都会勾选“忽略字段类型” 并不可修改。原因是都会转换为字符串进行比较。

如下图,为选择MD5关联时的页面:

“数据比对” - 图7 2021-06-30-17-52-05.png

3 数据比对任务的实例详情

任务运行后,最新的实例信息会呈现在列表的“最新实例信息”字段,并可以通过实例ID,快速查看实例详情。也支持在操作列的“实例列表”中,查看任务运行历史,并进入到实例详情页。

1)“主键关联”模式的实例详情

实例详情页,会展示比对的表,以及基本配置信息、表级比对结果、字段级比对结果。如果检测结果为主键不唯一,则不会有后续的比对动作。

在表级比对结果中,会有“整体不一致率”指标用于衡量两个表比对结果的整体情况,越接近于0,则表示一致性越高。此外,对于“主键相同、字段内容不一致”指标不为0的, 可点击查看不一致的明细。目前,会保留近15天的明细数据。

在字段比对结果中,对于每个字段都会有“整体不一致率”指标用于衡量每个字段的比对结果的整体情况。同样的,对于“主键相同、字段内容不一致”指标不为0的, 可点击查看不一致的详情。目前,会保留近15天的明细数据。

“数据比对” - 图9 2021-06-30-18-02-55.png

如下为查看表级“主键相同、字段内容不一致”的明细。在明细中,会展示源表和比对表的所有字段,会标记主键字段,也会用红色标记字段级不一致的内容。对于数据量过多时,可通过复制SQL语句,自行运行查看所有明细数据。

“数据比对” - 图11 2021-06-30-18-04-01.png

如下为字段级“主键相同、字段内容不一致”的明细。在明细中,会展示主键信息,以及本字段不一致的内容详情。

“数据比对” - 图13 2021-06-30-18-04-21.png

2)“MD5”模式的实例详情

实例详情页,会展示比对的表,以及基本配置信息、字段映射及选择的信息、表级比对结果。如果检测结果为MD5值不唯一,则不会有后续的比对动作。

对于表级比对结果,也会有“整体不一致率”指标来评估两份数据的整体差异情况。 由于是行数据的MD5值比对,仅能知道是否完全一致,因此只能查看仅在源表或仅在比对表的内容明细。用户可进一步自行探查更多。

“数据比对” - 图15 2021-06-30-18-05-02.png

如下为显示的仅在源表的记录的详情。对于数据量过多时,可通过复制SQL语句,自行运行查看所有明细数据。

“数据比对” - 图17 2021-06-30-18-05-30.png