FAQ-离线传输ftp非结构化传输文件数目不一致
更新时间: 2025-12-01 14:10:14
阅读 29
FAQ-离线传输FTP非结构化传输文件数目不一致
问题描述/异常栈
在FTP-hdfs的非结构化文件传输中,筛选部分文件会造成传输文件数目不一致,发生漏文件或者传输的文件数数目增多两种情况,像筛选了500条,实际传输到HDFS只有两百条,发生文件遗漏;筛选了10条,实际传输了30条,发生文件数目增多。发现版本
EasyData9.0解决方案
临时解决方案:FTP非结构化传输时选择全部,而不选择部分,对于文件数目较多可以移动到新的文件夹分配传输。
问题原因
FTP非结构化传输时,目前的正则表达式识别有误,会把文件名中有空格的识别为%,spark传输时从文件目录查找需要传输的文件,发现文件名称不一致查找不到导致传输遗漏文件;而文件数目增多因为同时传输有文件夹和文件,若文件命名包含文件夹,例如文件夹名称为2018,文件名称为2018年xxx记录,勾选了文件夹做传输会导致匹配时未勾选的文件也被传输到目标到,从而出现文件数目增多的情况,后续会修改正则表达式逻辑,修复版本待定。作者:楚展航
文档反馈
以上内容对您是否有帮助?