kylin-关键配置

自身的配置
kylin.properties
kylin.cube.algorithm : 建立cube的算法,默认是auto , 可以选择的是 “layer” or “inmem” ,“inmem”更快,但是更消耗内存。
kylin.hbase.region.cut : hbase 的每个region 大小,默认是5G
kylin.hbase.default.compression.codec : 在hbase中的压缩方式。
hadoop 相关的配置
kylin_job_conf.xml & kylin_job_conf_inmem.xml 文件
kylin.job.mr.config.override.mapreduce.map.java.opts=-Xmx7g
kylin.job.mr.config.override.mapreduce.map.memory.mb=8192
kylin.job.mr.config.override.mapreduce.job.queuename=myQueue
hive 相关的配置
kylin_hive_conf.xml
默认情况下 ,这三个配置文件是一样的,配置在哪个文件中都可以,只是名字上做了区分。
若是想开启压缩的话:
hive要开启压缩,修改 kylin_hive_conf.xml
<property>
<name>mapreduce.map.output.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
<description></description>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
<description></description>
</property>
MR作业想开启压缩的话: 修改kylin_job_conf.xml & kylin_job_conf_inmem.xml

阅读全文…

yarn-坏纪录过滤的相关配置

mapreduce.task.skip.start.attempts : 当任务失败次数达到该值时,启用跳过坏记录功能,默认值2
mapreduce.map.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.reduce.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.job.skip.outdir : 检测出的坏记录存放目录,默认值为输出目录的_logs/skip,设置为none表示不输出
mapreduce.map.skip.maxrecords : map task最多允许的跳过记录数,默认值0。 可以设置为Long.MAX_VALUE
mapreduce.reduce.skip.maxgroups : reduce task最多允许的跳过记录数,默认值0。 Long.MAX_VALUE

阅读全文…

hadoop-日志相关参数解析

yarn.nodemanager.local-dirs : application 计算过程的中间数据存储,建议分为多个盘来存储
yarn.nodemanager.localizer.cache.cleanup.interval-ms : deletion server多长时间做一次检测,并且清除缓存目录直到目录大小低于target-size-mb的配置
yarn.nodemanager.localizer.cache.target-size-mb : 中间结果数据最大存储空间

阅读全文…