1. 概述

本产品提供了两种数据连接方式,直连和抽取。直连是指直接连接用户数据库进行数据的读取,而抽取则是将表数据抽取到本产品的MPP数据库中,提升查询效率。本文将对数据抽取功能进行详细介绍。

2. 数据抽取的类型

数据抽取分为全量抽取、增量抽取两种抽取方式。

2.1 全量抽取


每次抽取的时候将表数据全部抽取至MPP数据库,提供了全量覆盖抽取和全量追加抽取两种抽取方式。

  • 全量覆盖抽取:每次抽取,对数据库的全部数据进行抽取,并覆盖MPP数据库已有的数据,如下图所示:
    chouqufangshi1.jpg

  • 全量追加抽取:每次抽取,对数据库的全部数据进行抽取,并追加在MPP数据库中,如下图所示:
    chouqufangshi2.jpg

2.2 增量抽取


每次只抽取相比于上次更新增加的数据,提供了增量抽取和增量抽取(滚动覆盖)两种抽取方式

(1)增量抽取:每次抽取,根据增量字段判断数据库中的数据是否为新增数据,对数据库的新增数据进行抽取,并追加在MPP数据库中,如下图所示:
chouqufangshi3.jpg

(2)增量抽取(滚动覆盖):每次抽取,根据日期及滚动周期将数据库中的新增以及部分历史数据抽取到MPP数据库中,其中历史数据将会覆盖原数据。
chouqufangshi4.jpg

  • 在设置滚动覆盖抽取时需要设定动态日期,方式包括前N天、本月、动态日期范围三种方式;
  • 动态日期范围的开始、结束时间可选:全部时间、今天、昨天、单日、上周、上月、前第n天(不包含今天)、前第n周的周m、前第n月的m日、后第n天(不包含今天)、后第n周的周m、后第n月的m日。
    数据抽取 - 图5 数据抽取 - 图6

(3)关于增量抽取,需要注意:

  • 只支持针对日期型(Date)和数值型(Int)的字段作为增量抽取的依据字段;
  • 只支持对源表新增的数据做增量,如果源表中对数据有更新或删除操作,增量抽取的时候不会检测到这些变化;
  • 支持以字符串作为抽取依据,如自增ID。

3. 抽取设置入口

您在数据连接、数据准备、数据模型、项目中心中都可以对数据连接方式进行设置。

  • 在数据连接中,您可以在选择需要设置的数据连接后,选择[表信息],列表中会显示该连接内所有的数据表,然后可对需要抽取的表进行抽取设置。
    数据抽取 - 图7

  • 在数据准备中,您可以在输入节点切换数据连接的方式。
    数据准备抽取.png

  • 在数据模型中,您可以在模型信息中切换数据连接的方式。
    数据模型抽取

  • 在项目中心中,您还可以对所有的抽取任务进行统筹管理,详见数据任务管理。
    数据任务管理

  • 当您进入抽取设置界面后,就可以设置抽取方式和执行计划了。
    抽取设置

4. 定时计划

在您设置抽取方式后, 如果希望系统可以定时抽取,则需要添加定时计划,支持按“秒、分、小时、天、周、月”频率抽取。

当任务频率为秒、分钟、小时时,可配置每日抽取任务执行的时间段。当定时任务到暂停时间后自动关闭,第二天到启动时间后会再次开启。
数据抽取 - 图12

5. 告警设置

报警功能可以让抽取出现失败或超时等情况时,及时通知到相关责任人,一般也建议设置报警。

(1)配置入口

针对已配置过抽取的任务,在项目中心-资源管理-数据任务-更多-告警设置
数据抽取 - 图13

(2)告警方式

  • 抽取失败:指任务失败或终止;
  • 抽取成功:指任务完成;
  • 抽取超时:任务从计划执行时间开始计时,多久之后还没有成功的实例。
    • 抽取超时需要设置超时阈值,以分钟为单位
      数据抽取 - 图14

(3)通知方式

支持系统消息、邮件和短信三种方式通知到指定用户。