spark简介

一 核心术语
----------------------------------------
Application : 运行在spark上的应用,包含了driver和executor
Application jar : 打包的可执行jar
Driver program : 运行main函数的类
Cluster manager :外部的资源调度,例如mesos,yarn
Deploy mode : 部署运行模式,例如local,client,yarn等
Worker node:具体的执行节点,例如yarn中的nodemanager
Executor : 在Worker node上运行的进程,例如yarn中的container
Task:最小可执行的单元
job:具体的某个操作行为,例如spark中的save,collector
Stage :每个作业的执行阶段,类似于mr中的map, reduce
二 整体架构图:
----------------------------------------
spark = 一个driver + 少量的executor + 大量的task组成
driver : 打的可执行spark包
executor : 一个独立的jvm进程,在spark on yarn中,executor = container
task : 独立jvm进程中的线程

阅读全文…