YARN配置说明

服务配置

配置组:conf_general

参数名 默认值 备注
JAVA_HOME /usr/lib64/jdk8 JDK 路径

配置组:conf_hadoop_env

参数名 默认值 备注
HADOOP_HDFS_LOG_DIR /var/log/ndp/hadoop-hdfs/hdfs hadoop-env.sh 配置文件中的 HADOOP_LOG_DIR 配置项,为 HDFS log 路径
hadoop_env_sh_template 生成hadoop-env.sh配置文件的模板

配置组:conf_task_controller

参数名 默认值 备注
HADOOP_MAPRED_LOG_DIR /var/log/ndp/hadoop-hdfs/mapred taskcontroller.cfg 配置文件中的 hadoop.log.dir 配置项,为 MapReduce log 路径
MAPRED_LOCAL_DIR /tmp/hadoop-mapred/mapred/local taskcontroller.cfg 配置文件中的 mapred.local.dir 配置项,为 MapReduce 本地路径

配置组:log4j

参数名 默认值 备注
hadoop.root.logger INFO,console log4j.properties 配置文件中的 hadoop.root.logger 配置项
hadoop.log.file hadoop.log log4j.properties 配置文件中的 hadoop.root.logger 配置项
log4j_properties_template 生成 log4j.properties 配置文件的模板
task_log4j_properties_template 生成 task-log4j.properties 配置文件的模板

配置组:yarn_site

参数名 默认值 备注
yarn.node_labels.fs_store.root_dir /system/yarn/node-labels yarn-site.xml 配置文件中的 yarn.node-labels.fs-store.root-dir 配置项, 为 NodeLabelManager 的 URI
yarn.nodemanager.local_dirs /hadoop/yarn/local yarn-site.xml 配置文件中的 yarn.nodemanager.local-dirs 配置项, 详细参见 注意事项 中的 Yarn 配置注意事项 小节
yarn.nodemanager.log_dirs /hadoop/yarn/log yarn-site.xml 配置文件中的 yarn.nodemanager.log-dirs 配置项, 详细参见 注意事项 中的 Yarn 配置注意事项 小节
yarn.nodemanager.recovery_dirs /hadoop/yarn/recovery-state yarn-site.xml 配置文件中的 yarn.nodemanager.recovery.dir 配置项, 启用恢复后,节点管理器将在其中存储状态的本地文件系统目录
yarn.nodemanager.remote_app_log_dirs /app-logs yarn-site.xml 配置文件中的 yarn.nodemanager.remote-app-log-dir 配置项, 将日志汇总到此路径
yarn.resourcemanager.ha.automatic_failover.zk_base_path /yarn-leader-election yarn-site.xml 配置文件中的 yarn.resourcemanager.ha.automatic-failover.zk-base-path 配置项, 使用基于ZooKeeper的领导者选举时,用于存储领导者信息的基本znode路径
yarn.resourcemanager.zk_state_store.parent_path /rmstore-secure yarn-site.xml 配置文件中的 yarn.resourcemanager.zk-state-store.parent-path 配置项, 存储RM状态的ZooKeeper znode的完整路径
yarn.timeline_service.leveldb_timeline_store.path /hadoop/yarn/timeline yarn-site.xml 配置文件中的 yarn.timeline-service.leveldb-timeline-store.path 配置项, leveldb时间轴存储的存储文件名
yarn.timeline_service.leveldb_state_store.path /usr/ndp/data/yarn/timeline yarn-site.xml 配置文件中的 yarn.timeline-service.leveldb-state-store.path 配置项, leveldb状态存储的存储文件名
yarn.resourcemanager.scheduler.class org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler yarn-site.xml 配置文件中的 yarn.resourcemanager.scheduler.class 配置项, 用作资源调度程序的类
spark.yarn.shuffle.stopOnFailure true yarn-site.xml 配置文件中的 spark.yarn.shuffle.stopOnFailure 配置项, 当 SparkShuffleService 初始化失败的时候是否关闭 NodeManager
yarn.acl.enable true yarn-site.xml 配置文件中的 yarn.acl.enable 配置项, 是否启用ACL
hadoop.registry.rm.enabled false yarn-site.xml 配置文件中的 hadoop.registry.rm.enabled 配置项, 当应用程序和容器终止时,resourcemanager 是否自动清除应用程序和容器服务记录
yarn.admin.acl yarn,hadoop,dr.who yarn-site.xml 配置文件中的 yarn.admin.acl 配置项, YARN 集群的管理员的ACL
yarn.client.nodemanager-connect.max-wait-ms 60000 yarn-site.xml 配置文件中的 yarn.client.nodemanager-connect.max-wait-ms 配置项, 等待建立与NM的连接的最长时间
yarn.client.nodemanager-connect.retry-interval-ms 60000 yarn-site.xml 配置文件中的 yarn.client.nodemanager-connect.retry-interval-ms 配置项, 每次尝试连接到NM之间的时间间隔
yarn.http.policy HTTP_ONLY yarn-site.xml 配置文件中的 yarn.http.policy 配置项, YARN 守护程序配置 HTTP 端点
yarn.log-aggregation-enable true yarn-site.xml 配置文件中的 yarn.log-aggregation-enable 配置项, 是否启用日志聚合
yarn.log-aggregation.retain-check-interval-seconds 3600 yarn-site.xml 配置文件中的 yarn.log-aggregation.retain-check-interval-seconds 配置项, 聚合日志保留检查之间需要等待多长时间
yarn.log-aggregation.retain-seconds 2592000 yarn-site.xml 配置文件中的 yarn.log-aggregation.retain-seconds 配置项, 删除聚合日志前要保留多长时间
yarn.node-labels.enabled false yarn-site.xml 配置文件中的 yarn.node-labels.enabled 配置项, 启用节点标签功能
yarn.node-labels.fs-store.retry-policy-spec 2000,50 yarn-site.xml 配置文件中的 yarn.node-labels.fs-store.retry-policy-spec 配置项, 用于FileSystem节点标签存储的重试策略
yarn.nodemanager.address 0.0.0.0:45454 yarn-site.xml 配置文件中的 yarn.nodemanager.address 配置项, NM中容器管理器的地址
yarn.nodemanager.admin-env MALLOC_ARENA_MAX=$MALLOC_ARENA_MAX yarn-site.xml 配置文件中的 yarn.nodemanager.admin-env 配置项, 应该从NodeManager的环境转发到容器的环境变量
yarn.nodemanager.aux-services mapreduce_shuffle,spark_shuffle yarn-site.xml 配置文件中的 yarn.nodemanager.aux-services 配置项, 以逗号分隔的服务列表,其中服务名称应仅包含a-zA-Z0-9_并且不能以数字开头
yarn.nodemanager.aux-services.mapreduce_shuffle.class org.apache.hadoop.mapred.ShuffleHandler yarn-site.xml 配置文件中的 yarn.nodemanager.aux-services.mapreduce_shuffle.class 配置项
yarn.nodemanager.aux-services.spark_shuffle.class org.apache.spark.network.yarn.YarnShuffleService yarn-site.xml 配置文件中的 yarn.nodemanager.aux-services.spark_shuffle.class 配置项
yarn.nodemanager.bind-host 0.0.0.0 yarn-site.xml 配置文件中的 yarn.nodemanager.bind-host 配置项, 服务器将绑定到的实际地址
yarn.nodemanager.container-executor.class org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor yarn-site.xml 配置文件中的 yarn.nodemanager.container-executor.class 配置项
yarn.nodemanager.container-manager.thread-count 32 yarn-site.xml 配置文件中的 yarn.nodemanager.container-manager.thread-count 配置项, 容器管理器使用的线程数。
yarn.nodemanager.container-metrics.enable false yarn-site.xml 配置文件中的 yarn.nodemanager.container-metrics.enable 配置项, 是否启用容器指标
yarn.nodemanager.container-metrics.unregister-delay-ms 60000 yarn-site.xml 配置文件中的 yarn.nodemanager.container-metrics.unregister-delay-ms 配置项, 完成后注销容器度量标准的延迟时间ms
yarn.nodemanager.container-monitor.interval-ms 3000 yarn-site.xml 配置文件中的 yarn.nodemanager.container-monitor.interval-ms 配置项, 监视容器的频率
yarn.nodemanager.delete.debug-delay-sec 0 yarn-site.xml 配置文件中的 yarn.nodemanager.delete.debug-delay-sec 配置项, 应用程序完成后,节点管理器的DeletionService将删除应用程序的本地化文件目录和日志目录的秒数
yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage 90.0F yarn-site.xml 配置文件中的 yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage 配置项, 允许的最大磁盘空间利用率百分比,之后将磁盘标记为坏磁盘
yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb 1000 yarn-site.xml 配置文件中的 yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb 配置项, 磁盘上必须可用的最小空间
yarn.nodemanager.disk-health-checker.min-healthy-disks 0.25 yarn-site.xml 配置文件中的 yarn.nodemanager.disk-health-checker.min-healthy-disks 配置项, 节点管理器启动新容器的健康磁盘数量的最小比例
yarn.nodemanager.health-checker.interval-ms 135000 yarn-site.xml 配置文件中的 yarn.nodemanager.health-checker.interval-ms 配置项, 运行节点运行状况脚本的频率
yarn.nodemanager.health-checker.script.timeout-ms 60000 yarn-site.xml 配置文件中的 yarn.nodemanager.health-checker.script.timeout-ms 配置项, 运行节点运行状况脚本的超时时间
yarn.nodemanager.linux-container-executor.cgroups.hierarchy hadoop-yarn yarn-site.xml 配置文件中的 yarn.nodemanager.linux-container-executor.cgroups.hierarchy 配置项, 放置YARN处理的cgroups层次结构
yarn.nodemanager.linux-container-executor.cgroups.mount false yarn-site.xml 配置文件中的 yarn.nodemanager.linux-container-executor.cgroups.mount 配置项, LCE是否应尝试挂载cgroup
yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage false yarn-site.xml 配置文件中的 yarn.nodemanager.linux-container-executor.cgroups.strict-resource-usage 配置项, false此标志确定应用程序应在严格的资源限制下运行还是应在需要时使用备用资源
yarn.nodemanager.linux-container-executor.group yarn yarn-site.xml 配置文件中的 yarn.nodemanager.linux-container-executor.group 配置项, linux-container-executor 应作为 UNIX 组运行
yarn.nodemanager.linux-container-executor.resources-handler.class org.apache.hadoop.yarn.server.nodemanager.util.DefaultLCEResourcesHandler yarn-site.xml 配置文件中的 yarn.nodemanager.linux-container-executor.resources-handler.class 配置项
yarn.nodemanager.log-aggregation.compression-type gz yarn-site.xml 配置文件中的 yarn.nodemanager.log-aggregation.compression-type 配置项, 用于压缩聚合日志的T文件压缩类型
yarn.nodemanager.log-aggregation.debug-enabled false yarn-site.xml 配置文件中的 yarn.nodemanager.log-aggregation.debug-enabled 配置项, 是否开启 nodemanager 的日志聚合(debug)
yarn.nodemanager.log-aggregation.num-log-files-per-app false yarn-site.xml 配置文件中的 yarn.nodemanager.log-aggregation.num-log-files-per-app 配置项, 定义每个NM在远程文件系统中每个应用程序可以有多少个聚合日志文件
yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds 3600 yarn-site.xml 配置文件中的 yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds 配置项, 定义NM唤醒上载日志文件的频率
yarn.nodemanager.log.retain-second 3600 yarn-site.xml 配置文件中的 yarn.nodemanager.log.retain-second 配置项, 保留用户日志的时间(以秒为单位)。仅在禁用日志聚合的情况下适用
yarn.nodemanager.recovery.enabled true yarn-site.xml 配置文件中的 yarn.nodemanager.recovery.enabled 配置项, 启动后使节点管理器能够恢复
yarn.nodemanager.remote-app-log-dir-suffix logs yarn-site.xml 配置文件中的 yarn.nodemanager.remote-app-log-dir-suffix 配置项, 远程日志目录将在以下位置创建: {yarn.nodemanager.remote-app-log-dir}/${user}/{thisParam}
yarn.nodemanager.resource.cpu-vcores 20 yarn-site.xml 配置文件中的 yarn.nodemanager.resource.cpu-vcores 配置项, 可分配给容器的vcore数量
yarn.nodemanager.resource.memory-mb 64096 yarn-site.xml 配置文件中的 yarn.nodemanager.resource.memory-mb 配置项, 可分配给容器的物理内存量(以MB为单位)
yarn.nodemanager.resource.percentage-physical-cpu-limit 80 yarn-site.xml 配置文件中的 yarn.nodemanager.resource.percentage-physical-cpu-limit 配置项, 可分配给容器的CPU百分比。
yarn.nodemanager.vmem-check-enabled false yarn-site.xml 配置文件中的 yarn.nodemanager.vmem-check-enabled 配置项, 是否将对容器实施虚拟内存限制。
yarn.nodemanager.vmem-pmem-ratio 2.1 yarn-site.xml 配置文件中的 yarn.nodemanager.vmem-pmem-ratio 配置项, 设置容器的内存限制时,虚拟内存与物理内存之间的比率
yarn.resourcemanager.am.max-attempts 3 yarn-site.xml 配置文件中的 yarn.resourcemanager.am.max-attempts 配置项, 默认的最大尝试应用次数
yarn.resourcemanager.application-report-dump.enabled true yarn-site.xml 配置文件中的 yarn.resourcemanager.application-report-dump.enabled 配置项
yarn.resourcemanager.bind-host 0.0.0.0 yarn-site.xml 配置文件中的 yarn.resourcemanager.bind-host 配置项, 服务器将绑定到的实际地址
yarn.resourcemanager.client.thread-count 64 yarn-site.xml 配置文件中的 yarn.resourcemanager.client.thread-count 配置项, 用于处理应用程序管理器请求的线程数
yarn.resourcemanager.cluster-id yarn-cluster yarn-site.xml 配置文件中的 yarn.resourcemanager.cluster-id 配置项, 用于处理应用程序管理器请求的线程数
yarn.resourcemanager.connect.max-wait.ms 900000 yarn-site.xml 配置文件中的 yarn.resourcemanager.connect.max-wait.ms 配置项, 用于处理应用程序管理器请求的线程数等待建立与ResourceManager的连接的最长时间。
yarn.resourcemanager.connect.retry-interval.ms 30000 yarn-site.xml 配置文件中的 yarn.resourcemanager.connect.retry-interval.ms 配置项, 多久尝试连接到ResourceManager
yarn.resourcemanager.fs.state-store.retry-policy-spec 2000, 500 yarn-site.xml 配置文件中的 yarn.resourcemanager.fs.state-store.retry-policy-spec 配置项, hdfs客户端重试策略规范
yarn.resourcemanager.ha.enabled true yarn-site.xml 配置文件中的 yarn.resourcemanager.ha.enabled 配置项, 是否开启 resourcemanager 的高可用
yarn.resourcemanager.max-completed-applications 50000 yarn-site.xml 配置文件中的 yarn.resourcemanager.max-completed-applications 配置项, RM保留的已完成申请的最大数量
yarn.resourcemanager.proxy-user-privileges.enabled true yarn-site.xml 配置文件中的 yarn.resourcemanager.proxy-user-privileges.enabled 配置项, 如果为true,则ResourceManager将具有代理用户权限
yarn.resourcemanager.recovery.enabled true yarn-site.xml 配置文件中的 yarn.resourcemanager.recovery.enabled 配置项, 启动后使RM恢复状态。如果为true,则必须指定yarn.resourcemanager.store.class
yarn.resourcemanager.scheduler.monitor.enable false yarn-site.xml 配置文件中的 yarn.resourcemanager.scheduler.monitor.enable 配置项, 启用一组影响调度程序的定期监视器
yarn.resourcemanager.state-store.max-completed-applications 100000 yarn-site.xml 配置文件中的 yarn.resourcemanager.state-store.max-completed-applications 配置项, RM状态存储保留的已完成应用程序的最大数量,小于或等于$ {yarn.resourcemanager.max-completed-applications}
yarn.resourcemanager.store.class org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore yarn-site.xml 配置文件中的 yarn.resourcemanager.store.class 配置项
yarn.resourcemanager.system-metrics-publisher.dispatcher.pool-size 10 yarn-site.xml 配置文件中的 yarn.resourcemanager.system-metrics-publisher.dispatcher.pool-size 配置项, 发送 YARN 度量标准数据的工作线程数
yarn.resourcemanager.system-metrics-publisher.enabled false yarn-site.xml 配置文件中的 yarn.resourcemanager.system-metrics-publisher.enabled 配置项, 该设置 YARN 度量标准是否由RM发布在时间轴服务器上
yarn.resourcemanager.webapp.delegation-token-auth-filter.enabled false yarn-site.xml 配置文件中的 yarn.resourcemanager.webapp.delegation-token-auth-filter.enabled 配置项, 标记以启用使用RM身份验证过滤器覆盖默认kerberos身份验证过滤器,以允许使用委派令牌进行身份验证(如果缺少令牌,则回退到kerberos)
yarn.resourcemanager.work-preserving-recovery.enabled true yarn-site.xml 配置文件中的 yarn.resourcemanager.work-preserving-recovery.enabled 配置项, 启用RM工作保留恢复
yarn.resourcemanager.work-preserving-recovery.scheduling-wait-ms 10000 yarn-site.xml 配置文件中的 yarn.resourcemanager.work-preserving-recovery.scheduling-wait-ms 配置项, 设置RM在工作保留恢复上分配新容器之前等待的时间
yarn.resourcemanager.zk-acl worldrwcda yarn-site.xml 配置文件中的 yarn.resourcemanager.zk-acl 配置项, 用于ZooKeeper znode的ACL
yarn.resourcemanager.zk-num-retries 1000 yarn-site.xml 配置文件中的 yarn.resourcemanager.zk-num-retries 配置项, RM尝试连接到ZooKeeper的次数
yarn.resourcemanager.zk-retry-interval-ms 1000 yarn-site.xml 配置文件中的 yarn.resourcemanager.zk-retry-interval-ms 配置项, RM尝试连接到ZooKeeper的时间间隔
yarn.scheduler.fair.allow-undeclared-pools false yarn-site.xml 配置文件中的 yarn.scheduler.fair.allow-undeclared-pools 配置项
yarn.scheduler.fair.assignmultiple true yarn-site.xml 配置文件中的 yarn.scheduler.fair.assignmultiple 配置项
yarn.scheduler.fair.max.assign 5 yarn-site.xml 配置文件中的 yarn.scheduler.fair.max.assign 配置项
yarn.scheduler.increment-allocation-mb 512 yarn-site.xml 配置文件中的 yarn.scheduler.increment-allocation-mb 配置项
yarn.scheduler.maximum-allocation-mb 14096 yarn-site.xml 配置文件中的 yarn.scheduler.maximum-allocation-mb 配置项, RM上每个容器请求的最大分配内存
yarn.scheduler.maximum-allocation-vcores 10 yarn-site.xml 配置文件中的 yarn.scheduler.maximum-allocation-vcores 配置项, RM上每个容器请求的最大分配CPU核数
yarn.timeline-service.address localhost:10200 yarn-site.xml 配置文件中的 yarn.timeline-service.address 配置项, 这是时间轴服务器启动RPC服务器的默认地址
yarn.timeline-service.bind-host 0.0.0.0 yarn-site.xml 配置文件中的 yarn.timeline-service.bind-host 配置项, 服务器将绑定到的实际地址
yarn.timeline-service.client.max-retries 30 yarn-site.xml 配置文件中的 yarn.timeline-service.client.max-retries 配置项, 时间轴服务客户端的默认最大重试次数,值-1表示没有限制。
yarn.timeline-service.client.retry-interval-ms 1000 yarn-site.xml 配置文件中的 yarn.timeline-service.client.retry-interval-ms 配置项, 时间轴服务性客户端的默认重试时间间隔
yarn.timeline-service.enabled false yarn-site.xml 配置文件中的 yarn.timeline-service.enabled 配置项, 在服务器端,它指示是否启用了时间轴服务
yarn.timeline-service.generic-application-history.store-class org.apache.hadoop.yarn.server.applicationhistoryservice.NullApplicationHistoryStore yarn-site.xml 配置文件中的 yarn.timeline-service.generic-application-history.store-class 配置项
yarn.timeline-service.http-authentication.simple.anonymous.allowed true yarn-site.xml 配置文件中的 yarn.timeline-service.http-authentication.simple.anonymous.allowed 配置项, 指示使用“简单”身份验证时,时间轴服务器是否允许匿名请求。
yarn.timeline-service.http-authentication.type kerberos yarn-site.xml 配置文件中的 yarn.timeline-service.http-authentication.type 配置项, 定义用于时间轴服务器HTTP端点的身份验证
yarn.timeline-service.leveldb-timeline-store.read-cache-size 104857600 yarn-site.xml 配置文件中的 yarn.timeline-service.leveldb-timeline-store.read-cache-size 配置项, leveldb时间轴存储的未压缩块的读取缓存大小,以字节为单位
yarn.timeline-service.leveldb-timeline-store.start-time-read-cache-size 10000 yarn-site.xml 配置文件中的 yarn.timeline-service.leveldb-timeline-store.start-time-read-cache-size 配置项, leveldb时间线存储区中最近读取的实体开始时间的缓存大小(以实体数为单位)。
yarn.timeline-service.leveldb-timeline-store.start-time-write-cache-size 10000 yarn-site.xml 配置文件中的 yarn.timeline-service.leveldb-timeline-store.start-time-write-cache-size 配置项, leveldb时间线存储区中最近写入的实体开始时间的缓存大小(以实体数为单位)。
yarn.timeline-service.leveldb-timeline-store.ttl-interval-ms 300000 yarn-site.xml 配置文件中的 yarn.timeline-service.leveldb-timeline-store.ttl-interval-ms 配置项, 在leveldb时间线存储的删除周期之间等待的时间长度(以毫秒为单位)。
yarn.timeline-service.recovery.enabled 300000 yarn-site.xml 配置文件中的 yarn.timeline-service.recovery.enabled 配置项, 启动后使时间轴服务器恢复状态。
yarn.timeline-service.state-store-class org.apache.hadoop.yarn.server.timeline.recovery.LeveldbTimelineStateStore yarn-site.xml 配置文件中的 yarn.timeline-service.state-store-class 配置项
yarn.timeline-service.store-class org.apache.hadoop.yarn.server.timeline.LeveldbTimelineStore yarn-site.xml 配置文件中的 yarn.timeline-service.store-class 配置项
yarn.timeline-service.ttl-enable true yarn-site.xml 配置文件中的 yarn.timeline-service.ttl-enable 配置项, 启用时间线存储数据的年龄限制。
yarn.timeline-service.ttl-ms 2678400000 yarn-site.xml 配置文件中的 yarn.timeline-service.ttl-ms 配置项, 时间轴存储数据的生存时间(以毫秒为单位)。
yarn.timeline-service.webapp.address localhost:8188 yarn-site.xml 配置文件中的 yarn.timeline-service.webapp.address 配置项, 时间轴服务Web应用程序的http地址。
yarn.timeline-service.webapp.https.address localhost:8190 yarn-site.xml 配置文件中的 yarn.timeline-service.webapp.https.address 配置项, 时间轴服务Web应用程序的https地址

配置组:mapred_site

参数名 默认值 备注
mapreduce.jobhistory.parent_dir /mr-history Yarn historyserver 相关记录的父路径
mapreduce.jobhistory.done_dir /mr-history/done mapred-site.xml 配置文件中的 mapreduce.jobhistory.done-dir 配置项, Yarn historyserver 已完成任务的记录路径
mapreduce.jobhistory.intermediate_done_dir /mr-history/tmp mapred-site.xml 配置文件中的 mapreduce.jobhistory.intermediate-done-dir 配置项, Yarn historyserver 临时的记录路径
mapreduce.jobhistory.recovery.store.leveldb.path /hadoop/mapreduce/jhs mapred-site.xml 配置文件中的 mapreduce.jobhistory.recovery.store.leveldb.path 配置项, HistoryServerLeveldbSystemStateStoreService配置为恢复存储类,则将在其中存储历史服务器状态的URI。
yarn.app.mapreduce.am.parent_dir /hadoop/mapreduce/jhs Yarn Application 的 mapreduce am 相关记录的父路径
yarn.app.mapreduce.am.staging_dir /tmp/hadoop-yarn/staging mapred-site.xml 配置文件中的 yarn.app.mapreduce.am.staging-dir 配置项, 提交作业时使用的 staging 目录
mapreduce.job.queuename default mapred-site.xml 配置文件中的 mapreduce.job.queuename 配置项, 作业提交到的队列。
mapred.compress.map.output true mapred-site.xml 配置文件中的 mapred.compress.map.output 配置项, 是否开启 compress.map.output。
mapred.map.output.compression.codec com.hadoop.compression.lzo.LzoCodec mapred-site.xml 配置文件中的 mapred.map.output.compression.codec 配置项
mapreduce.admin.map.child.java.opts -server -XX:NewRatio=8 -Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN mapred-site.xml 配置文件中的 mapreduce.admin.map.child.java.opts 配置项
mapreduce.admin.reduce.child.java.opts -server -XX:NewRatio=8 -Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN mapred-site.xml 配置文件中的 mapreduce.admin.reduce.child.java.opts 配置项
mapreduce.am.max-attempts 3 mapred-site.xml 配置文件中的 mapreduce.am.max-attempts 配置项, 应用程序尝试的最大次数
mapreduce.cluster.administrators hadoop mapred-site.xml 配置文件中的 mapreduce.cluster.administrators 配置项, 所在集群管理员
mapreduce.framework.name yarn mapred-site.xml 配置文件中的 mapreduce.framework.name 配置项, 用于执行MapReduce作业的运行时框架。
mapreduce.job.counters.max 130 mapred-site.xml 配置文件中的 mapreduce.job.counters.max 配置项, 用于执行MapReduce作业的最大的counters数
mapreduce.job.emit-timeline-data false mapred-site.xml 配置文件中的 mapreduce.job.emit-timeline-data 配置项, 指定应用程序主控是否应将时间线数据发送到时间线服务器。单个作业可以覆盖此值。
mapreduce.jobhistory.bind-host 0.0.0.0 mapred-site.xml 配置文件中的 mapreduce.jobhistory.bind-host 配置项, mapreduce historyserve 绑定的 host
mapreduce.jobhistory.http.policy HTTP_ONLY mapred-site.xml 配置文件中的 mapreduce.jobhistory.http.policy 配置项, 这将为JobHistoryServer Web UI配置HTTP端点
mapreduce.jobhistory.joblist.cache.size 100000 mapred-site.xml 配置文件中的 mapreduce.jobhistory.joblist.cache.size 配置项, 作业列表缓存的大小
mapreduce.jobhistory.recovery.enable true mapred-site.xml 配置文件中的 mapreduce.jobhistory.recovery.enable 配置项, 启用历史记录服务器以存储服务器状态并在启动时恢复服务器状态
mapreduce.jobhistory.recovery.store.class org.apache.hadoop.mapreduce.v2.hs.HistoryServerLeveldbStateStoreService mapred-site.xml 配置文件中的 mapreduce.jobhistory.recovery.store.class 配置项
mapreduce.map.java.opts -Xmx819m mapred-site.xml 配置文件中的 mapreduce.map.java.opts 配置项
mapreduce.map.log.level INFO mapred-site.xml 配置文件中的 mapreduce.map.log.level 配置项, map 任务的日志记录级别。
mapreduce.map.memory.mb 512 mapred-site.xml 配置文件中的 mapreduce.map.memory.mb 配置项, 调度程序为每个映射任务请求的内存量
mapreduce.map.output.compress false mapred-site.xml 配置文件中的 mapreduce.map.output.compress 配置项, 映射的输出在通过网络发送之前是否应该进行压缩
mapreduce.map.output.compress.codec com.hadoop.compression.lzo.LzoCodec mapred-site.xml 配置文件中的 mapreduce.map.output.compress.codec 配置项
mapreduce.map.sort.spill.percent 0.7 mapred-site.xml 配置文件中的 mapreduce.map.sort.spill.percent 配置项, 序列化缓冲区中的软限制
mapreduce.map.speculative false mapred-site.xml 配置文件中的 mapreduce.map.speculative 配置项, 如果为true,则可以并行执行某些映射任务的多个实例
mapreduce.output.fileoutputformat.compress false mapred-site.xml 配置文件中的 mapreduce.output.fileoutputformat.compress 配置项, 作业输出是否应该压缩
mapreduce.output.fileoutputformat.compress.type BLOCK mapred-site.xml 配置文件中的 mapreduce.output.fileoutputformat.compress.type 配置项, 如果将作业输出压缩为SequenceFiles,应如何压缩它们
mapreduce.reduce.input.buffer.percent 0 mapred-site.xml 配置文件中的 mapreduce.reduce.input.buffer.percent 配置项, 内存百分比-相对于最大堆大小-在缩减期间保留映射输出
mapreduce.reduce.java.opts -Xmx1638m mapred-site.xml 配置文件中的 mapreduce.reduce.java.opts 配置项
mapreduce.reduce.log.level INFO mapred-site.xml 配置文件中的 mapreduce.reduce.log.level 配置项, reduce 任务的日志记录级别。
mapreduce.reduce.memory.mb 1024 mapred-site.xml 配置文件中的 mapreduce.reduce.memory.mb 配置项, 调度程序为每个 reduce 任务请求的内存量。
mapreduce.reduce.shuffle.fetch.retry.enabled 1 mapred-site.xml 配置文件中的 mapreduce.reduce.shuffle.fetch.retry.enabled 配置项, 设置为在主机重新启动期间启用提取重试
mapreduce.reduce.shuffle.fetch.retry.interval-ms 1000 mapred-site.xml 配置文件中的 mapreduce.reduce.shuffle.fetch.retry.interval-ms 配置项, 由于诸如NM重新启动之类的某些事件而导致非致命故障发生时,提取程序重试重新获取的时间间隔。
mapreduce.reduce.shuffle.fetch.retry.timeout-ms 30000 mapred-site.xml 配置文件中的 mapreduce.reduce.shuffle.fetch.retry.timeout-ms 配置项, 由于诸如NM重新启动之类的某些事件而导致某些非命故障时,提取程序重试以重新尝试获取的超时值
mapreduce.reduce.shuffle.input.buffer.percent 0.7 mapred-site.xml 配置文件中的 mapreduce.reduce.shuffle.input.buffer.percent 配置项, 随机播放期间从最大堆大小分配到存储映射输出的内存百分比。
mapreduce.reduce.shuffle.merge.percent 0.66 mapred-site.xml 配置文件中的 mapreduce.reduce.shuffle.merge.percent 配置项, 初始化内存中合并的使用阈值,表示为分配给存储内存中映射输出的总内存的百分比,由mapreduce.reduce.shuffle.input.buffer.percent定义。
mapreduce.reduce.shuffle.parallelcopies 30 mapred-site.xml 配置文件中的 mapreduce.reduce.shuffle.parallelcopies 配置项, 在copy(shuffle)阶段,默认的并行传输数由reduce运行
mapreduce.reduce.speculative false mapred-site.xml 配置文件中的 mapreduce.reduce.speculative 配置项, 如果为true,则可以并行执行某些reduce任务的多个实例
mapreduce.task.io.sort.factor 100 mapred-site.xml 配置文件中的 mapreduce.task.io.sort.factor 配置项, 排序文件时一次合并的流的数量
mapreduce.task.io.sort.mb 286 mapred-site.xml 配置文件中的 mapreduce.task.io.sort.mb 配置项, 排序文件时要使用的缓冲内存总量,以兆字节为单位。默认情况下,为每个合并流提供1MB的空间,这应将寻道最小化。
mapreduce.task.timeout 300000 mapred-site.xml 配置文件中的 mapreduce.task.timeout 配置项, 如果任务既不读取输入,不写入输出也不更新其状态字符串,则终止该任务之前的毫秒数。值为0将禁用超时。
yarn.app.mapreduce.am.admin-command-opts -server -XX:NewRatio=8 -Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN mapred-site.xml 配置文件中的 yarn.app.mapreduce.am.admin-command-opts 配置项
yarn.app.mapreduce.am.command-opts -Xmx819m mapred-site.xml 配置文件中的 yarn.app.mapreduce.am.command-opts 配置项
yarn.app.mapreduce.am.log.level INFO mapred-site.xml 配置文件中的 yarn.app.mapreduce.am.log.level 配置项, mapreduce am 的日志记录级别。
yarn.app.mapreduce.am.resource.mb 512 mapred-site.xml 配置文件中的 yarn.app.mapreduce.am.resource.mb 配置项, MR AppMaster需要的内存量。

配置组:yarn_env

参数名 默认值 备注
JAVA_HEAP_MAX -Xmx1000m yarn-env.sh 配置文件中的 JAVA_HEAP_MAX 配置项
YARN_HEAPSIZE 1024 yarn-env.sh 配置文件中的 YARN_HEAPSIZE 配置项
YARN_RESOURCEMANAGER_HEAPSIZE 11024 yarn-env.sh 配置文件中的 YARN_RESOURCEMANAGER_HEAPSIZE 配置项
YARN_NODEMANAGER_HEAPSIZE 5024 yarn-env.sh 配置文件中的 YARN_NODEMANAGER_HEAPSIZE 配置项
YARN_TIMELINESERVER_HEAPSIZE 1024 yarn-env.sh 配置文件中的 YARN_TIMELINESERVER_HEAPSIZE 配置项
yarn_env_sh_template 生成 yarn-env.sh 配置文件的模板

配置组:mapred_env

参数名 默认值 备注
HADOOP_JOB_HISTORYSERVER_HEAPSIZE 900 mapred-env.sh 配置文件中的 HADOOP_JOB_HISTORYSERVER_HEAPSIZE 配置项
HADOOP_MAPRED_ROOT_LOGGER INFO,RFA mapred-env.sh 配置文件中的 HADOOP_MAPRED_ROOT_LOGGER 配置项
mapred_env_sh_template 生成 mapred-env.sh 配置文件的模板

高级参数配置

Yarn 服务支持 mapred-site.xml 配置文件和yarn-site.xml 配置文件的配置增加服务,请按照以下步骤执行:

明确需要添加的参数名称,以 mapred-site.xml 的 mapreduce.application.classpath 配置项为例,在 mapred_site 分组下新增对应的字段名,类型为string

Generated

增加新配置项后即可设置该新配置项的值

Generated

应用当前新配置后,重启服务,勾选同步配置让配置生效

yarn-site.xml 配置文件的配置增加操作步骤同上

EasyOps v1.8.2 版本新增了yarn服务的 core-site.xml 和 hdfs-site.xml 配置文件的配置透传,由于配置管理页面没有默认定义相关配置组,进行配置透传时需要先创建 core_site 和 hdfs_site 配置组,再如上述内部所示增加配置组进行配置透传。

YARN Rack 配置说明

YARN Nodemanager 的 Rack 配置依赖于其所依赖的 HDFS datanode 相关 Rack 配置

若 NM 装在 DN 上,则该 NM 的 Rack 配置取自 DN 的配置

若 NM 不在 DN 上,则该 NM 的 Rack 配置为 defautl_rack