配置数据来源与去向

完成基本信息填写后,首先需要在数据来源配置离线同步任务节点的读取端数据源,以及需要同步的表等信息。 数据来源 - 图1

  • 数据来源
基本信息 说明
数据源 必填项,选择数据源类型及数据源名称
查找方式 必填项,选项为库表选择正则匹配,默认为库表选择:
库表选择:支持搜索或直接选择数据库表
正则匹配:通过正则表达式来匹配数据表
特殊字符替换 选择是否开启及替换内容
并发读取 选择是否开启并发读取。读取的数据将会根据切分键,按照并发度切分成指定的份数。
支持选择字符型字段作为切分键,支持的字段类型:VARCHAR、LONGNVARCHAR、NVARCHAR、NCHAR,建议使用带索引的字符型字段。
数据过滤项说明:
1. 条件:按列设置过滤规则,可添加一或多组条件,条件默认为AND关系;
2、流水型:从选择字段的起始值开始读取数据,读取到最新记录位置,下次从上次的最新记录读取至当前的最新记录;
3、自定义:填写where过滤语句(不含where关键字),通常用作增量同步,支持调度时间参数。时间参数用法详见时间参数用法详解
具体说明如下:增量同步在实际业务场景中,往往会选择当天的数据进行同步,通常需要编写where条件语句,需先确认表中描述增量字段(时间戳)为哪一个。如表增量的字段为create_time,则填写create_time>需要的日期 ,如果需要日期动态变化,可以填写如create_time>${azkaban.flow.1.days.ago} and create_time<${azkaban.flow.current.date}。