数据传输支持数据导入功能,支持excel、txt、csv、log格式的本地文件导入至Hive、MySQL、Oracle等20多种数据源类型。

注意:需配置EasyOps参数开启该功能。FTP版本要求操作系统Centos7,ftp服务要求版本vsftpd3.0.2或vsftpd3.0.3。

数据导入


数据传输页面选择导航栏左侧数据导入功能,进入数据导入页面,点击右侧导入本地数据按钮可以进行数据导入任务的创建。
数据导入 - 图1

导入本地数据页面,和离线同步任务类似有三块内容需要配置,分别是选择数据源字段映射以及执行设置

选择数据源


选择数据源包括数据来源数据去向的配置。当前数据来源支持txtcsvlog以及excel文件类型。

数据来源配置项如下:

参数项 说明
上传文件 支持本地文件上传,当前格式支持txt、csv、log和excel。
列分隔符 1. 不可见字符请使用Unicode编码表示。
2. 使用下列字符:|、^、$、.、*、\、?、+、{ 、}、[、 ]、( 、)时,请在字符前添加"\"来表示。示例:“|”字符表示为“|”。
原始字符集 支持UTF-8和GBK。
导入起始行 导入Excel文件时,会跳过空行,且不计入行数。示例:若Excel文件的第1行和第3行为空行,导入起始行填写“1”,导入数据时会以Excel文件的第2行作为导入数据的起始行,以Excel文件的第4行作为导入数据的第2行。
首行为标题 是否以导入数据文件的第一行作为标题。

数据去向当前支持20+数据源类型,以Hive为例,需要选择相应的数据源以及库表,再根据所选数据源类型填写写入规则。
数据导入 - 图2

配置完成后可点击数据预览,查看导入样例。此处需要注意,如果导入的数据第一行不是标题内容,则需要在首行为标题处选择

  • 上传的txt文件:
    数据导入 - 图3

  • 数据预览:
    数据导入 - 图4

字段映射


字段映射处选择来源表字段匹配去向表字段,支持自动匹配,也支持手动匹配。

根据上述数据预览图片,column1对应Hive表第一列,column2对应Hive表第二列。
数据导入 - 图5

需要注意的是,如果导入的字段类型和目标表的字段类型不匹配,例如导入的是a,但是目标表的字段是int型,可能会导致任务运行失败。

执行设置


执行设置当前支持执行队列任务参数的设置执行队列展示所有当前用户有权限的队列。

任务参数

  • ndi.spark.spark-conf.表示Spark_2.3.2支持的配置项参数
  • source.表示数据来源端参数
  • target.表示数据去向端参数

任务参数需要根据实际使用场景进行设置,具体配置方法可咨询技术支持人员。关于参数的情况可参考高级设置参数
数据导入 - 图6

配置完成后,点击导入即可提交任务,提交任务之后可前往日志页面查看运行情况。

数据导入任务运维


任务列表页面展示导入数据源类型导入数据源导入信息最近导入文件最近导入状态最近导入时间以及最近导入人。支持编辑数据导入任务、基于任务上传新文件、查看导入记录、查看任务、删除任务。支持通过导入状态、导入数据源类型、导入人进行筛选,也支持通过搜索文件名称、导入数据源、导入信息进行任务的查找。
数据导入 - 图7

导入新文件

数据导入 - 图8
如果需要基于已有的任务上传新文件,则点击导入新文件按钮,在导入新文件弹窗中上传文件,并支持修改分区信息(如有)和导入规则。

注意:
1)上传新文件的文件格式需与数据导入任务中上传的文件格式保持一致。
2)上传新文件的字段需包含数据导入任务中选择的所有来源表字段。

查看导入记录

数据导入 - 图9
针对同一数据导入任务,支持查看历次导入文件的记录。含:新建任务相应的导入记录、编辑任务相应的导入记录、上传新文件相应的导入记录。