数据识别功能用于识别敏感字段,可通过库表的设置筛选识别范围。项目负责人管理员具有使用该功能的权限。

新增识别任务


数据识别页面中,点击新增识别任务可进行识别任务的配置。
数据识别 - 图1

  • 任务名称:任务名称由用户自定义,可由汉字、字母、数字组成。
  • 识别范围:识别范围支持当前项目内库的筛选;表的筛选支持全部、枚举及自定义。

    • 选择枚举时,可添加表并设置分区字段和分区值(当前分区值不支持azkaban参数,只支持具体的日期格式)。
      数据识别 - 图2
    • 选择自定义时,可通过正则表达式匹配表的内容。
      数据识别 - 图3
  • 敏感类型:此处选项根据敏感类型功能中的创建的类型而定,默认为银行卡号、手机号、身份证号以及邮箱,支持复选。
    数据识别 - 图4

  • 识别行数:最多1000行,支持自定义设置。

  • 生效阈值:生效阈值=命中行数/识别行数,结合识别行数,判断此次识别结果。
  • 完成通知:支持运行成功运行失败两种结果通知。
  • 通知方式:当前支持邮件、短信、电话等。
  • 任务说明:对识别任务进行补充说明,帮助其他用户了解任务。

配置完成后,点击确定关闭窗口。新建的任务处于等待状态。
数据识别 - 图5

点击立即识别,任务状态变为识别中开始正式执行。当所有对象都已成功完成识别,则状态会置为成功;如果状态变为失败,则表示执行识别任务失败,未完成识别工作。

查看结果


点击结果按钮,可跳转至任务的识别结果页面,页面展示当前任务识别采样的库名表名字段名数据采样以及敏感类型的展示。
数据识别 - 图6

将鼠标放置在采样的数据上,会显示部分采样结果
数据识别 - 图7

点击编辑按钮,可对敏感类型进行查看,被识别出来的敏感类型会在类型旁出现数据识别 - 图8,当用户不认可识别结果也可以对敏感类型重新选择,更新后的敏感类型会同步到数据地图进行展示。
数据识别 - 图9

编辑任务


对处于未识别中的任务支持编辑操作,点击编辑按钮进行编辑,编辑过程中不支持识别范围的修改,即不支持库、表的更改。
数据识别 - 图10