Spark应用部署模式实例

Local模式

新启动一个终端

SparkSubmit # pyspark命令启动的进程,实际上就是启动了一个Spark应用程序

Spark Standalone模式

讲解:

6321 SecondaryNameNode  

 #hadoop中HDFS第二数据存储节点,负责定期合并 fsimage 和 edits log 文件  

 7475 Jps  

 6132 DataNode  

 #hadoop中HDFS的数据存储节点,负责存储实际的数据块,并响应来自客户端或 NameNode 的读写请求。  

 7332 Worker  

#spark工作节点,负责接收 Master 节点分配的任务并在本地执行这些任务  

5973 NameNode  

 #hadoop中HDFS的名称节点(核心组件),管理文件系统的命名空间,并控制客户端对文件的访问。  

 6456 ResourceManager  

 #hadoop中YARN的资源经理(主控服务),负责集群资源管理和调度应用的任务。  

 7416 HistoryServer  

 #历史服务进程  

 6761 NodeManager  

 #hadoop中YARN的工作节点上的代理,负责容器生命周期管理,并监控资源使用情况(如CPU、内存、磁盘、网络等)。  

7180 Master  

 #spark主节点,负责集群管理和资源分配  

Spark on YARN模式

停止Standalone服务,启动YARN服务:

Spark应用部署模式实例_第1张图片

Spark应用部署模式实例_第2张图片

将Spark安装目录中的jars依赖库文件放到HDFS上

Spark应用部署模式实例_第3张图片

修改spark-env.sh配置文件

以YARN集群模式启动PySparkShell交互式编程环境

示例应用程序pi.py提交到YARN集群中运行

先关闭Local模式

Spark应用部署模式实例_第4张图片

在浏览器输入:http://localhost:8088/ 查看

你可能感兴趣的:(spark,大数据,分布式)