MapReduce监控指标

终于有时间写关于hadoop中map reduce的内部监控了。恰好就在这里整理下自己的监控指标

所有的指标都分为两部分,其一是发生的现象,另一部分是可能的原因。

问题一:状态为failed的job

可能原因:需要具体定位


问题二:map 个数大于300

可能原因:资源消耗过大


问题三:reduce个数大于300

可能原因:资源消耗过大


问题四:运行时间超过2个小时

可能原因:需要具体定位问题


问题五:map failed 个数超过15%

可能原因:需要具体定位问题


问题六:reduce failed 个数超过15%

可能原因:需要具体定位问题


问题七:reduce/map 百分比 低于5%

可能原因:reduce个数设置不合理


问题八:Average Map Time 低于30s

可能原因:map 个数设置过高


问题九:Average Reduce Time 低于30s

可能原因:reduce个数设置过高


问题十:read data skew

可能原因:读hdfs数据倾斜


问题十一:write data skew

可能原因:写hdfs数据倾斜

发表评论

电子邮件地址不会被公开。 必填项已用*标注