INFO-模板

适用模块
数据传输
具体说明
使用多表 自定义sql读取时
使用示例

报错现象:

INFO-自定义sql两表联读 - 图1 INFO-自定义sql两表联读 - 图2

使用效果: INFO-自定义sql两表联读 - 图3

原理
mapreduce.input.fileinputformat.input.dir.recursive 是一个 Hadoop 配置参数,用于控制在使用 FileInputFormat 读取文件时,是否递归地遍历目录以查找输入文件。具体来说,它决定了 Hadoop 在处理输入目录时,是否会递归地查找子目录中的文件。

参数值
true:递归遍历输入目录及其子目录,查找所有文件。
false(默认值):只遍历输入目录,不递归查找子目录中的文件。
使用场景
递归查找文件:如果你的输入数据分布在多个层级的目录中,并且希望 Hadoop 能够处理所有这些文件,可以将该参数设置为 true。例如:

- input/
  - subdir1/
    - file1.txt
  - subdir2/
    - file2.txt
设置 mapreduce.input.fileinputformat.input.dir.recursive=true 后,Hadoop 会递归地查找 subdir1  subdir2 中的文件,并将它们作为输入文件。

非递归查找文件:如果你的输入数据只在顶层目录中,或者你只希望处理顶层目录中的文件,而忽略子目录中的文件,可以保持默认的 false。例如:

- input/
  - file1.txt
  - subdir1/
    - file2.txt
在默认设置下,Hadoop 只会处理 file1.txt,而不会处理 subdir1 中的 file2.txt

作者:华柄印