Spark集群搭建(Hadoop+Spark+Zookeeper+HBase)

目录

  • 硬件准备与软件版本说明
  • 配置基础环境
  • 安装Java
  • 安装Hadoop
  • 安装Spark
  • 安装Python
  • 安装Scala
  • 安装SBT
  • 安装Zookeeper
  • 安装HBase
  • 安装Pycharm
  • 编写集群启动与关闭脚本
  • 用户管理界面
  • 补充

硬件准备与软件版本说明

1. 硬件: 三台装有Centos7系统的电脑

2. 软件安装版本: 以下为经过测试可行的软件版本

 Java:openjdk version "1.8.0_252" 
 Hadoop:2.7.7 
 Spark:2.4.5 
 Python:3.6.8 
 Scala:2.11.12 
 SBT:1.3.13 
 Zookeeper:3.4.14
 HBase:1.2.7

配置基础环境

1. 创建新用户及设置密码: adduser sparkpasswd spark

2. 将新用户加入wheel组(可以使用sudo):usermod -aG wheel spark

3. 修改计算机名称

  1. 修改主机名字: sudo vi /etc/hostname
  2. 设置电脑的静态IP:vi /etc/sysconfig/network-scripts/ifcfg-ens33(ens33为当前电脑使用的网卡的名称)
  3. 修改hosts文件: 通过sudo vi /etc/hosts添加如下内容
192.168.11.137  master
192.168.28.54   slave1
192.168.28.51   slave2

4. 配置每台机器ssh免密登陆(可远程操控其他电脑)

  1. 在每台机器上 ssh-keygen -t rsa

  2. 将slave1与slave2上的id_rsa.pub用scp命令发送给master
    scp ~/.ssh/id_rsa.pub hadoop@master:~/.ssh/id_rsa.pub.slave1
    scp ~/.ssh/id_rsa.pub hadoop@master:~/.ssh/id_rsa.pub.slave2

  3. 在master上 cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys并将authorized_keys文件发给每台slave
    scp ~/.ssh/authorized_keys hadoop@slave1:~/.ssh/
    scp ~/.ssh/authorized_keys hadoop@slave2:~/.ssh/

安装Java

1. 安装JAVA

  1. 安装JRE: sudo yum install java-1.8.0-openjdk.x86_64
  2. 安装JDK: sudo yum -y install java-1.8.0-openjdk-devel.x86_64

2. 配置环境变量

  1. vi /etc/profile添加配置内容
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.b09-2.el7_8.x86_64
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
  1. 让配置文件生效: source /etc/profile
    测试配置文件是否生效 : echo $JAVA_HOME

安装Hadoop

具体安装过程参考网址

1. 下载hadoop并解压

2. 修改配置文件(在路径/home/spark/allBigData/hadoop/etc/hadoop里)

  1. hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.b09-2.el7_8.x86_64
# 配置日志目录生效,但还有部分日志存在默认目录$HADOOP_HOME/logs
export HADOOP_LOG_DIR=/home/spark/allBigData/data/hadoop/log 
export HADOOP_PID_DIR=/home/spark/allBigData/data/hadoop/pid
  1. yarn-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.b09-2.el7_8.x86_64
export YARN_PID_DIR=/home/spark/allBigData/data/hadoop/pid
  1. slaves
master
slave1
slave2
  1. core-site.xml
<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/home/spark/allBigData/data/hadoop/tmp</value>
             <description>A base for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://master:9000/</value>
        </property>
</configuration>
  1. hdfs-site.xml
<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
    </property>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/home

你可能感兴趣的:(大数据平台,spark,大数据,hadoop,hbase,linux)