数据抽取

使用到抽取功能的用户才需要查阅此章节

有数支持对数据表进行抽取,将表数据抽取到有数的MPP数据库中,提升查询效率。

有数支持全量抽取、增量抽取两种抽取方式。 全量抽取:每次抽取的时候将表数据全部抽取至有数的MPP数据库。 增量抽取:每次抽取只抽取相比于上次更新增加的数据。

关于增量抽取,需要注意的是: 1、只支持针对日期型(Date)和数值型(Int)的字段作为增量抽取的依据字段; 2、只支持对源表新增的数据做增量,如果源表中对数据有更新或删除操作,增量抽取的时候不会检测到这些变化;

我们可以在“数据源”模块,进行抽取设置。选择需要设置的数据连接后,选择表信息模块,列表中会显示该连接内所有的数据表,我们可以对需要抽取的表进行抽取设置。

数据抽取 - 图1

进入抽取设置界面后,允许设置抽取方式、高级设置、添加定时邮件。

数据抽取 - 图2

针对全量抽取和增量抽取,分别提供了两种抽取方式:全量覆盖抽取/全量追加抽取;增量抽取/增量抽取(滚动覆盖)

  • 全量覆盖抽取:每次抽取,对数据库的全部数据进行抽取,并覆盖有数MPP数据库已有的数据,如下图所示:

数据抽取 - 图3

  • 全量追加抽取:每次抽取,对数据库的全部数据进行抽取,并追加在有数MPP数据库中,如下图所示:

数据抽取 - 图4

  • 增量抽取:每次抽取,根据增量字段判断数据库中的数据是否为新增数据,对数据库的新增数据进行抽取,并追加在有数MPP数据库中,如下图所示:

数据抽取 - 图5

注:

1、只支持针对日期型(Date)和数据型(Int)的字段做增值设置;

2、只支持对源表数据新增做增量,如果源表中对数据有更新或删除操作,增量抽取的时候不会检测到这些变化;

  • 增量抽取(滚动覆盖):每次抽取,根据日期及滚动周期将数据库中的新增以及部分历史数据抽取到有数MPP数据库中,其中历史数据将会覆盖原数据。

数据抽取 - 图6

允许添加/暂停抽取的定时任务比如下图,设置成每天05:00执行抽取任务。

数据抽取 - 图7

设置完后,点击“完成”按钮,保存你的抽取设置。

另外,在项目中心,可以对所有的抽取任务进行统筹管理。详见抽取管理

数据抽取 - 图8