yarn-坏纪录过滤的相关配置

mapreduce.task.skip.start.attempts : 当任务失败次数达到该值时,启用跳过坏记录功能,默认值2
mapreduce.map.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.reduce.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.job.skip.outdir : 检测出的坏记录存放目录,默认值为输出目录的_logs/skip,设置为none表示不输出
mapreduce.map.skip.maxrecords : map task最多允许的跳过记录数,默认值0。 可以设置为Long.MAX_VALUE
mapreduce.reduce.skip.maxgroups : reduce task最多允许的跳过记录数,默认值0。 Long.MAX_VALUE

一般需要调整的就是 mapreduce.map.skip.maxrecords 和 mapreduce.reduce.skip.maxgroups ,在平台压力很大的情况下,同时允许一定的数据丢失的话,可以设置大一点

发表评论

电子邮件地址不会被公开。 必填项已用*标注