数据传输支持数据导入功能,支持excel、txt、csv、log格式的本地文件导入至Hive、MySQL、Oracle等20多种数据源类型。

注意:需配置EasyOps参数开启该功能。FTP版本要求操作系统Centos7,ftp服务要求版本vsftpd3.0.2或vsftpd3.0.3。

数据导入


数据传输页面选择导航栏左侧数据导入功能,进入数据导入页面,点击右侧导入本地数据按钮可以进行数据导入任务的创建。
数据导入 - 图1

导入本地数据页面,和离线同步任务类似有三块内容需要配置,分别是选择数据源字段映射以及执行设置

选择数据源


选择数据源包括数据来源数据去向的配置。当前数据来源支持txtcsvlog以及excel文件类型。

数据来源配置项如下:

参数项 说明
上传文件 支持本地文件上传,当前格式支持txt、csv、log和excel。
列分隔符 1. 不可见字符请使用Unicode编码表示。
2. 使用下列字符:|、^、$、.、*、\、?、+、{ 、}、[、 ]、( 、)时,请在字符前添加”\”来表示。示例:“|”字符表示为“|”。
原始字符集 支持UTF-8和GBK。
导入起始行 导入Excel文件时,会跳过空行,且不计入行数。示例:若Excel文件的第1行和第3行为空行,导入起始行填写“1”,导入数据时会以Excel文件的第2行作为导入数据的起始行,以Excel文件的第4行作为导入数据的第2行。
首行为标题 是否以导入数据文件的第一行作为标题。

数据去向当前支持20+数据源类型,以Hive为例,需要选择相应的数据源以及库表,再根据所选数据源类型填写写入规则。
数据导入 - 图2

配置完成后可点击数据预览,查看导入样例。此处需要注意,如果导入的数据第一行不是标题内容,则需要在首行为标题处选择

  • 上传的txt文件:
    数据导入 - 图3

  • 数据预览:
    数据导入 - 图4

字段映射


字段映射处选择来源表字段匹配去向表字段,支持自动匹配,也支持手动匹配。

根据上述数据预览图片,column1对应Hive表第一列,column2对应Hive表第二列。
数据导入 - 图5

需要注意的是,如果导入的字段类型和目标表的字段类型不匹配,例如导入的是a,但是目标表的字段是int型,可能会导致任务运行失败。

执行设置


执行设置当前支持执行队列任务参数的设置执行队列展示所有当前用户有权限的队列。

任务参数

  • ndi.spark.spark-conf.表示Spark_2.3.2支持的配置项参数
  • source.表示数据来源端参数
  • target.表示数据去向端参数

任务参数需要根据实际使用场景进行设置,具体配置方法可咨询技术支持人员。关于参数的情况可参考高级设置参数
数据导入 - 图6

配置完成后,点击导入即可提交任务,提交任务之后可前往日志页面查看运行情况。

数据导入任务查看


任务列表页面展示导入文件的名称导入状态导入数据源类型导入信息导入时间以及导入人。支持任务和日志的查看。支持通过导入状态、导入数据源类型、导入人进行筛选,也支持通过搜索文件名称、导入信息进行任务的查找。
数据导入 - 图7