spark-pyspark-standalone部署模式全过程

声明:

1.参考视频b站黑马程序员视频,极力推荐这个视频,侵权删除

https://www.bilibili.com/video/BV1Jq4y1z7VP/?spm_id_from=333.337.search-card.all.click&vd_source=3ae466b20a9e8eabdaa10e84c9975849

2.第一次配置,仅作为个人记录使用。

3.参考黑马程序员standalone配置文档,地址:

通过网盘分享的文件:Spark部署文档.md
链接: https://pan.baidu.com/s/1BfjMa6U666LoeO2Wz8hA2Q?pwd=94js 提取码: 94js 
--来自百度网盘超级会员v1的分享

一、配置整体规划

v1虚拟机运行:spark的master进程和1个work进程

v2虚拟机运行:spark的1个work进程

v3虚拟机运行:spark的1个work进程

整个集群提供:1个master进程和3个work进程

二、集群配置anaconda(python),需要三个虚拟机同时配置anaconda

参考本人空间文章spark-本地集群配置

常用指令如下:

1.执行安装包命令:sh ./

2.创建文件夹指令:mkdir

3.虚拟机相互传送文件指令:scp

4.删除非空文件夹指令:rm -rf 文件夹

5.创建新anaconda空间:conda create -n pyspark python=3.8

6.切换新空间指令:conda activate pyspark
三、集群安装spark

参考本人空间文章spark-本地集群配置

四、修改spark参数

1.修改workers.template参数

spark-pyspark-standalone部署模式全过程_第1张图片

spark-pyspark-standalone部署模式全过程_第2张图片

2.编辑spark-env.sh, 在底部追加如下内容

1).hadoop(hdfs,yarn集群)、java为spark配置之前默认配置完毕,地址应为自己的地址。

2).第八行为自己的集群名字,例如:本人为v1,v2,v3

3).后续出现端口号网址打不开时,可以更改端口号,原因为被占用。

## 设置JAVA安装目录
JAVA_HOME=/export/server/jdk

## HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop

## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
export SPARK_MASTER_HOST=node1
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的 webui端口
SPARK_MASTER_WEBUI_PORT=8080

# worker cpu可用核数
SPARK_WORKER_CORES=1
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的 webui地址
SPARK_WORKER_WEBUI_PORT=8081

## 设置历史服务器
# 配置的意思是  将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

注意:

1.软件在Linux安装地址默认/export/server,包括anaconda与spark,创建目录指令:mkdir export,Hadoop安装地址为本人地址(文章中代码的Hadoop地址要自行修改成自己的)

你可能感兴趣的:(spark,大数据,分布式)