自身的配置
kylin.properties
kylin.cube.algorithm : 建立cube的算法,默认是auto , 可以选择的是 “layer” or “inmem” ,“inmem”更快,但是更消耗内存。
kylin.hbase.region.cut : hbase 的每个region 大小,默认是5G
kylin.hbase.default.compression.codec : 在hbase中的压缩方式。
hadoop 相关的配置
kylin_job_conf.xml & kylin_job_conf_inmem.xml 文件
kylin.job.mr.config.override.mapreduce.map.java.opts=-Xmx7g
kylin.job.mr.config.override.mapreduce.map.memory.mb=8192
kylin.job.mr.config.override.mapreduce.job.queuename=myQueue
hive 相关的配置
kylin_hive_conf.xml
默认情况下 ,这三个配置文件是一样的,配置在哪个文件中都可以,只是名字上做了区分。
若是想开启压缩的话:
hive要开启压缩,修改 kylin_hive_conf.xml
<property>
<name>mapreduce.map.output.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
<description></description>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
<description></description>
</property>
MR作业想开启压缩的话: 修改kylin_job_conf.xml & kylin_job_conf_inmem.xml
阅读全文…
月度存档: 四月 2017
kylin-关键配置
yarn-坏纪录过滤的相关配置
mapreduce.task.skip.start.attempts : 当任务失败次数达到该值时,启用跳过坏记录功能,默认值2
mapreduce.map.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.reduce.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.job.skip.outdir : 检测出的坏记录存放目录,默认值为输出目录的_logs/skip,设置为none表示不输出
mapreduce.map.skip.maxrecords : map task最多允许的跳过记录数,默认值0。 可以设置为Long.MAX_VALUE
mapreduce.reduce.skip.maxgroups : reduce task最多允许的跳过记录数,默认值0。 Long.MAX_VALUE
阅读全文…
hadoop-yarn内存和cpu的参数(不包含MR运行时参数)
yarn.nodemanager.resource.memory-mb : 节点上yarn可使用的内存大小,如果设置为-1,同时yarn.nodemanager.resource.detect-hardware-capabilities为true,会自动根据操作系统资源进行分配,默认是8G
阅读全文…
hadoop-日志相关参数解析
yarn.nodemanager.local-dirs : application 计算过程的中间数据存储,建议分为多个盘来存储
yarn.nodemanager.localizer.cache.cleanup.interval-ms : deletion server多长时间做一次检测,并且清除缓存目录直到目录大小低于target-size-mb的配置
yarn.nodemanager.localizer.cache.target-size-mb : 中间结果数据最大存储空间
阅读全文…