首页 > 大数据 > yarn-坏纪录过滤的相关配置

yarn-坏纪录过滤的相关配置

mapreduce.task.skip.start.attempts : 当任务失败次数达到该值时,启用跳过坏记录功能,默认值2
mapreduce.map.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.reduce.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.job.skip.outdir : 检测出的坏记录存放目录,默认值为输出目录的_logs/skip,设置为none表示不输出
mapreduce.map.skip.maxrecords : map task最多允许的跳过记录数,默认值0。 可以设置为Long.MAX_VALUE
mapreduce.reduce.skip.maxgroups : reduce task最多允许的跳过记录数,默认值0。 Long.MAX_VALUE

一般需要调整的就是 mapreduce.map.skip.maxrecords 和 mapreduce.reduce.skip.maxgroups ,在平台压力很大的情况下,同时允许一定的数据丢失的话,可以设置大一点

分类: 大数据 标签:
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.