大数据生态圈基础组件安装步骤

摘要: 大数据生态圈基础组件安装步骤

关键词: 大数据、基础组件、运维、安装步骤

整体说明

大数据生态圈有很多组件,而且需要多台机器才能良好的运行,以下从机器准备、环境准备、组件安装顺序的去完成大数据组件的安装。

大数据生态圈基础组件安装步骤_第1张图片

一、机器准备

1.1、配置要求

类别 最小配置 推荐配置 说明
操作系统 Linux (如 CentOS, Ubuntu) Linux (如 CentOS 7+, Ubuntu 18.04+) 支持多种操作系统,但建议使用稳定版本的 Linux 发行版。
处理器 (CPU) 多核处理器 (至少 2 核) 多核处理器 (8 核或更多) 更多核心有助于并行处理任务。
内存 (RAM) 至少 8 GB 32 GB 或更多 内存对于性能至关重要,尤其是当集群需要处理大量数据时。
磁盘空间 每个节点至少 500 GB HDD/SSD 每个节点 1+ TB SSD SSD 提供更快的数据读写速度,对性能有显著提升。
网络接口 1 Gbps 网络适配器 10 Gbps 网络适配器 更高的带宽可以减少节点间通信延迟,提高集群整体性能。
Java 版本 Java 8 或更高版本 Java 8 或更高版本 Hadoop 是基于 Java 的,确保安装了正确版本的 JDK。
HDFS 副本数 1 (不推荐用于生产环境) 3 或更多 增加副本数可以提高数据冗余性和可用性。

1.2、设置主机名称

总计3台机器,分别需要设置主机名称

[root@ambari ~]# hostnamectl set-hostname hadoop01
[root@ambari ~]# hostnamectl set-hostname hadoop02
[root@ambari ~]# hostnamectl set-hostname hadoop03

二、环境准备

2.1、openssl版本

[root@hadoop01 ~]# openssl version
OpenSSL 1.0.2k-fips  26 Jan 2017
[root@hadoop01 ~]# rpm -qa | grep openssl
openssl-libs-1.0.2k-12.el7.x86_64
openssl-1.0.2k-12.el7.x86_64

如果低于 openssl-1.0.1e-16.el6.x86_64 版本,则需要更新到 openssl-1.0.1e-16.el6.x86_64 及以上版本

2.2、Python版本

[root@hadoop01 ~]# python -V
Python 2.7.5

如果低于 Python 2.7 版本,则升级 Python 到 2.7 及以上版本。

2.3、Python默认认证

编辑 /etc/python/cert-verification.cfg 配置文件,将 [https] 节点的 verify 项设为禁用:

[root@hadoop01 ~]# vi /etc/python/cert-verification.cfg
[https]
verify=disable

保存退出

2.4、SSH免密钥配置

在hadoop01中使用ssh-keygen -t rsa(四个回车)生成私钥和公钥

[root@hadoop01 ~]# ssh-keygen -t rsa

进入~/.ssh,使用ls就会发现有两个文件,id_rsa与id_rsa.pub,前者为私钥,后者为公钥。

hadoop01把自己的公钥发送到自己

[root@hadoop01 ~]# cd ~/.ssh/
[root@hadoop01 .ssh]# ssh-copy-id -i id_rsa.pub root@hadoop01

将hadoop01中~/.ssh/中的所有文件拷贝到其他机器的~/.ssh/目录下

[root@hadoop01 ~]# scp ~/.ssh/*  root@hadoop02:~/.ssh/
[root@hadoop01 ~]# scp ~/.ssh/*  root@hadoop03:~/.ssh/

2.5、时间同步设置

2.5.1、所有节点

如果没有该服务,安装

[root@hadoop01 .ssh]# yum install -y ntp

设置ntp服务开机启动(所有节点)

[root@hadoop01 .ssh]# systemctl start ntpd
[root@hadoop01 .ssh]# systemctl enable ntpd.service

查看

[root@hadoop01 .ssh]# systemctl status ntpd

2.5.2、hadoop01主节点

当服务器连不上互联网时,以局域网内的时间服务器为客户端提供时间同步服务。

修改hadoop01的ntp.conf文件(做好ntp.conf的备份)

[root@hadoop01 .ssh]# vim /etc/ntp.conf

注释原有的server内容,添加如下内容

server 127.127.1.0
fudge 127.127.1.0 stratum 10

启动服务

[root@hadoop01 .ssh]# systemctl restart ntpd.service

查看时间同步状态

[root@hadoop01 .ssh]# ntpstat

2.5.3、hadoop02节点和hadoop03节点

修改配置文件,修改内容如下

[root@hadoop02 .ssh]# vim /etc/ntp.conf

注释原有的server内容,添加如下内容

server hadoop01
restrict hadoop01 nomodify notrap noquery
server  127.127.1.0
fudge   127.127.1.0 stratum 10

与hadoop01服务器时间保持同步

[root@hadoop02 .ssh]# ntpdate -u hadoop01

重启命令

[root@hadoop02 .ssh]# systemctl restart ntpd.service

三、组件安装

3.1、Ambari平台安装

Ambari安装方式比较简单,可自行搜索。

3.2、单组件安装

3.2.1、Zookeeper

官方下载地址: http://archive.apache.org/dist/zookeeper/zooke

你可能感兴趣的:(大数据生态圈,大数据,hadoop)