增量抽取逻辑:

    按增量字段做增量,第一次抽取是全量抽取表,之后是在MPP库里找到增量字段的最大值,再去数据源里查询比MPP库里最大值大的数据。

    例子:比如下图的订单日期做增量字段,先把整个表的数据抽到mpp里。假设现在MMP表里的最大日期是2023-12-11号,那么下次的增量结果就是抽取订单日期大于2023-12-11日的数据,也就是从2023-12-12号的数据开始抽。

    假如历史数据有更新,不适合增量抽取,需要设置滚动覆盖。

    如果是字符串字段做增量,就是从左到右比较文本值大小。

    增量抽取的逻辑 - 图1

    滚动覆盖逻辑:

    增量的部分是和增量抽取一样的,只是多了一个滚动覆盖的逻辑,可以覆盖近多少天的数据,适合历史数据有更新的场景。

    可以按照日期字段,滚动覆盖近7天的数据,那么历史的近七天数据就会被删掉,以最新的为准。(增量字段得是日期类型,如果只是字符串的日期字段,是不会滚动的,只会增量)

    增量抽取的逻辑 - 图2