Spark基础学习笔记06:搭建Spark On YARN集群

文章目录

  • 零、本讲学习目标
  • 一、Spark On YARN架构
    • (一)client提交方式
    • (二)cluster提交方式
  • 二、搭建Spark On YARN集群
    • (一)搭建Spark Standalone集群
    • (二)修改Spark环境配置文件
  • 三、提交Spark应用到集群运行
    • (一)启动HDFS和YARN
    • (二)运行Spark应用程序
    • (三)查看应用程序运行结果

零、本讲学习目标

  1. 学会搭建Spark On YARN模式的集群
  2. 能够将Spark应用程序提交到集群运行

一、Spark On YARN架构

  • Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己实现,因此可能在YARN上同时运行MapReduce程序和Spark程序,YARN很好地对每一个程序实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中,共享集群存储资源与计算资源。Spark On YARN模式与Standalone模式一样,也分为clientcluster两种提交方式。

(一)client提交方式

  • Spark On YARN的client提交方式提交应用程序后的主要进程有:SparkSubmit、ResourceManager、NodeManager、CoarseGrainedExecutorBackend、ExecutorLauncher,运行架构如下图所示:

你可能感兴趣的:(Spark基础学习笔记,java,YARN,Spark)