hive相关 - INFO-自定义sql两表联读 - 《EasyData数据开发治理平台FAQ》

INFO-自定义sql两表联读

更新时间: 2025-12-01 14:02:33 | 阅读 3305

扫码

复制

导出

INFO-模板

INFO-模板

适用模块

数据传输

具体说明

使用多表自定义sql读取时

使用示例

报错现象：

使用效果：

原理

mapreduce.input.fileinputformat.input.dir.recursive 是一个 Hadoop 配置参数，用于控制在使用 FileInputFormat 读取文件时，是否递归地遍历目录以查找输入文件。具体来说，它决定了 Hadoop 在处理输入目录时，是否会递归地查找子目录中的文件。

参数值
true：递归遍历输入目录及其子目录，查找所有文件。
false（默认值）：只遍历输入目录，不递归查找子目录中的文件。
使用场景
递归查找文件：如果你的输入数据分布在多个层级的目录中，并且希望 Hadoop 能够处理所有这些文件，可以将该参数设置为 true。例如：

- input/
  - subdir1/
    - file1.txt
  - subdir2/
    - file2.txt
设置 mapreduce.input.fileinputformat.input.dir.recursive=true 后，Hadoop 会递归地查找 subdir1 和 subdir2 中的文件，并将它们作为输入文件。

非递归查找文件：如果你的输入数据只在顶层目录中，或者你只希望处理顶层目录中的文件，而忽略子目录中的文件，可以保持默认的 false。例如：

- input/
  - file1.txt
  - subdir1/
    - file2.txt
在默认设置下，Hadoop 只会处理 file1.txt，而不会处理 subdir1 中的 file2.txt。

作者：华柄印

以上内容对您是否有帮助？

鼠标选中文档，精准反馈问题

选中存在疑惑的内容，即可快速反馈问题，我们会跟进处理

不再提示我知道了

文档反馈