INFO-自定义sql两表联读
更新时间: 2024-06-26 07:55:18
阅读 223
INFO-模板
适用模块
数据传输具体说明
使用多表 自定义sql读取时使用示例
报错现象:
使用效果:
原理
mapreduce.input.fileinputformat.input.dir.recursive 是一个 Hadoop 配置参数,用于控制在使用 FileInputFormat 读取文件时,是否递归地遍历目录以查找输入文件。具体来说,它决定了 Hadoop 在处理输入目录时,是否会递归地查找子目录中的文件。
参数值
true:递归遍历输入目录及其子目录,查找所有文件。
false(默认值):只遍历输入目录,不递归查找子目录中的文件。
使用场景
递归查找文件:如果你的输入数据分布在多个层级的目录中,并且希望 Hadoop 能够处理所有这些文件,可以将该参数设置为 true。例如:
- input/
- subdir1/
- file1.txt
- subdir2/
- file2.txt
设置 mapreduce.input.fileinputformat.input.dir.recursive=true 后,Hadoop 会递归地查找 subdir1 和 subdir2 中的文件,并将它们作为输入文件。
非递归查找文件:如果你的输入数据只在顶层目录中,或者你只希望处理顶层目录中的文件,而忽略子目录中的文件,可以保持默认的 false。例如:
- input/
- file1.txt
- subdir1/
- file2.txt
在默认设置下,Hadoop 只会处理 file1.txt,而不会处理 subdir1 中的 file2.txt。
作者:华柄印
文档反馈
以上内容对您是否有帮助?