当前仅支持批量创建数据去向指定为Hive数据库的离线同步任务,数据来源可选:MySQL、DB2、HANA、DM、SQLServer、PostgreSQL、DDB(DBI)、DDB(QS)、Oracle。

功能入口


在数据传输页面,单击左侧菜单栏中离线同步任务,进入任务管理页面。在该页面中,单击新建任务或者批量任务创建,进行离线同步任务配置。
新建批量离线同步任务 - 图1

配置批量任务


配置批量离线同步任务同样需要配置数据来源信息和去向信息。

数据来源端配置

1.单击数据来源下拉框,选择需要抽取的数据源数据类型。
2.任务名称自动填写,默认为“xxx2hivendi${source_table}”。
3.配置数据源,在下拉框选择数据源与数据库。
4.选择数据源后,来源表栏自动显示数据源内所有表,可使用搜索框进行手动选择,也可单击选择未生成任务的表快速勾选没有生成过同步任务的表,同时系统还支持通过表名文件匹配的方式匹配相应的表。

说明:
1. xxx为数据来源,hive为数据去向,${source_table}是源表名参数,按照“数据来源2数据去向_ndi_源表名”的格式批量生成任务名称。
2. 取消所有选中的表支持反选功能。
3. 表名文件匹配:将要匹配的表名写入到text文件中并用换行符进行分隔(最多支持1000行)并上传。
数据去向端配置

1.生成表设置,支持批量生成数据去向表。
新建批量离线同步任务 - 图2
2.设置导出方式,支持全量与增量,默认为全量。
3.设置数据抽取流量控制,必填项。支持不限速与限速,默认不限速。
4.单击去向Hive库下拉菜单,选择Hive库。
5.配置写入规则,当前支持insert overwrite、insert into,默认为insert overwrite。
6.配置写入方式,当数据去向表为非分区表时,系统默认写入到表中;当数据去向表为分区表时,系统自动填写分区字段同时默认写入到分区中,分区值可下拉选择系统内置时间参数。
7.设置流量控制,支持不限速与限速,默认不限速。
8.任务配置完成后,单击生成按钮后,完成任务创建。

任务生成与预览


任务创建完成后,可查看任务名称、源表、目标表和生成状态。若生成状态为创建成功,代表任务已创建成功。
12 数据传输.png

说明:
当生成状态为创建成功时,任务已创建成功,点击新建批量任务的返回按钮无法撤销任务。若需要撤销任务,请在任务列表中删除任务。