【Spark】【第三章】 Spark运行环境

Spark作为一个分布式数据处理框架和计算引擎,被设计在所有常见的集群环境中运行:
【Spark】【第三章】 Spark运行环境_第1张图片

1. 本地模式

所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境

1.1 本地模式的安装配置

将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

cd /opt/module 
mv spark-3.0.0-bin-hadoop3.2 spark-local

这就安装好了,也不需要多余的配置;


1.2 本地模式的使用

1.2.1 启动Local环境

进入解压缩后的路径,执行如下指令就启动了Local环境

bin/spark-shell

【Spark】【第三章】 Spark运行环境_第2张图片

1.2.2 Web UI监控页面访问

http://虚拟机地址:4040
该页面只有在Spark任务运行的过程中才能访问,任务执行完连接不上了
在这里插入图片描述

1.2.3 命令行工具

在解压缩文件夹下的data目录中,添加word.txt文件。在命令行工具中执行如下代码指令(和IDEA中代码简化版一致)

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述

1.2.4 退出本地模式

按键Ctrl+C或输入Scala指令:quit

1.2.5 提交应用

实际开发中,都是在idea中开发,然后打成jar包,提交应用
提交一个已经写好的程序:

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \    
--master local[2] \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10


--class表示要执行程序的主类,此处可以更换为咱们自己写的应用程序
--master local[2]

你可能感兴趣的:(#,Spark,spark)