存档

‘大数据’ 分类的存档

hive on spark的几个参数调整

2017年8月25日 没有评论

spark.executor.cores : 每个executor允许分配的cpu ,建议是在5-7之间

阅读全文…

分类: 大数据 标签: 106 views

spark简介

2017年7月27日 没有评论

一 核心术语
----------------------------------------
Application : 运行在spark上的应用,包含了driver和executor
Application jar : 打包的可执行jar
Driver program : 运行main函数的类
Cluster manager :外部的资源调度,例如mesos,yarn
Deploy mode : 部署运行模式,例如local,client,yarn等
Worker node:具体的执行节点,例如yarn中的nodemanager
Executor : 在Worker node上运行的进程,例如yarn中的container
Task:最小可执行的单元
job:具体的某个操作行为,例如spark中的save,collector
Stage :每个作业的执行阶段,类似于mr中的map, reduce
二 整体架构图:
----------------------------------------
spark = 一个driver + 少量的executor + 大量的task组成
driver : 打的可执行spark包
executor : 一个独立的jvm进程,在spark on yarn中,executor = container
task : 独立jvm进程中的线程

阅读全文…

分类: 大数据 标签: 149 views

mongo-命令行安装 -replSet

2017年7月25日 没有评论

1.增加源
echo “deb http://repo.mongodb.org/apt/debian jessie/mongodb-org/3.4 main” | sudo tee /etc/apt/sources.list.d/mongodb-org-3.4.list

阅读全文…

分类: DB, 大数据 标签: 153 views

滴滴hbase常见的rowkey设计

2017年5月26日 没有评论

订单状态表

阅读全文…

分类: 大数据 标签: 453 views

kylin 使用单独hbase问题

2017年5月3日 没有评论
分类: 大数据 标签: 579 views

kylin-关键配置

2017年4月25日 没有评论

自身的配置
kylin.properties
kylin.cube.algorithm : 建立cube的算法,默认是auto , 可以选择的是 “layer” or “inmem” ,“inmem”更快,但是更消耗内存。
kylin.hbase.region.cut : hbase 的每个region 大小,默认是5G
kylin.hbase.default.compression.codec : 在hbase中的压缩方式。
hadoop 相关的配置
kylin_job_conf.xml & kylin_job_conf_inmem.xml 文件
kylin.job.mr.config.override.mapreduce.map.java.opts=-Xmx7g
kylin.job.mr.config.override.mapreduce.map.memory.mb=8192
kylin.job.mr.config.override.mapreduce.job.queuename=myQueue
hive 相关的配置
kylin_hive_conf.xml
默认情况下 ,这三个配置文件是一样的,配置在哪个文件中都可以,只是名字上做了区分。
若是想开启压缩的话:
hive要开启压缩,修改 kylin_hive_conf.xml
<property>
<name>mapreduce.map.output.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
<description></description>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
<description></description>
</property>
MR作业想开启压缩的话: 修改kylin_job_conf.xml & kylin_job_conf_inmem.xml

阅读全文…

分类: 大数据 标签: 513 views

yarn-坏纪录过滤的相关配置

2017年4月6日 没有评论

mapreduce.task.skip.start.attempts : 当任务失败次数达到该值时,启用跳过坏记录功能,默认值2
mapreduce.map.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.reduce.skip.proc-count.auto-incr : 是否开启skip数的统计信息,对于一些异步的实时流处理不允许设置为true
mapreduce.job.skip.outdir : 检测出的坏记录存放目录,默认值为输出目录的_logs/skip,设置为none表示不输出
mapreduce.map.skip.maxrecords : map task最多允许的跳过记录数,默认值0。 可以设置为Long.MAX_VALUE
mapreduce.reduce.skip.maxgroups : reduce task最多允许的跳过记录数,默认值0。 Long.MAX_VALUE

阅读全文…

分类: 大数据 标签: 263 views

hadoop-yarn内存和cpu的参数(不包含MR运行时参数)

2017年4月6日 没有评论

yarn.nodemanager.resource.memory-mb : 节点上yarn可使用的内存大小,如果设置为-1,同时yarn.nodemanager.resource.detect-hardware-capabilities为true,会自动根据操作系统资源进行分配,默认是8G

阅读全文…

分类: 大数据 标签: 416 views

hadoop-日志相关参数解析

2017年4月5日 没有评论

yarn.nodemanager.local-dirs : application 计算过程的中间数据存储,建议分为多个盘来存储
yarn.nodemanager.localizer.cache.cleanup.interval-ms : deletion server多长时间做一次检测,并且清除缓存目录直到目录大小低于target-size-mb的配置
yarn.nodemanager.localizer.cache.target-size-mb : 中间结果数据最大存储空间

阅读全文…

分类: 大数据 标签: 381 views

hadoop 2.8.0的新特性

2017年3月29日 没有评论

hadoop 2.8.0 发布了,主要感觉都是在安全方面加强了很多。

阅读全文…

分类: 大数据 标签: 455 views
Pages: 1 2 3 4 Next