Linux下搭建Hadoop2.7.1伪分布式过程

需要安装的环境资源:

       JDK1.8 链接:https://pan.baidu.com/s/11CFyc-H2K-ZGppnkKk9KPA 提取码:4o3e 
       Hadoop2.7.1 链接:https://pan.baidu.com/s/16FqLT4GIXDiXLgWBbJOKZg 提取码:pwft 

远程访问工具使用SecureCRT8.1,可参考https://mp.csdn.net/postedit/84615230

本人使用的CentOS6.5.min版,资源参考:

        安装过程 https://mp.csdn.net/postedit/84618601

        网络配置https://mp.csdn.net/postedit/84619868

本人的安装过程使用的是普通用户hadoop。

安装步骤:

       第一步:创建hadoop用户

                     创建hadoop用户:useradd hadoop

                     设置密码:passwd hadoop

                     配置hadoop的高级权限:vi /etc/sudoers  增加hadoop的权限

                     Linux下搭建Hadoop2.7.1伪分布式过程_第1张图片

                     

       第二步:安装SSH免密(作用:在启动hadoop的相关进程时,可以不用再输入密码。)

                     安装SSH,命令:ssh-kygen

                     把生成的秘钥文件copy给本地(localhost)

                     Linux下搭建Hadoop2.7.1伪分布式过程_第2张图片

       第三步:上传、解压JDK、Hadoop安装包(本人这里统一放在hadoop用户家的apps目录里,apps是自己创建的空文件夹。)

                     使用SecureCRT中的SFTP工具上传文件到指定的工作目录中,SFTP的使用可参考                                                           https://mp.csdn.net/postedit/84632007中的第二步。

                     Linux下搭建Hadoop2.7.1伪分布式过程_第3张图片

                     解压

                     

                    使用普通用户hadoop配置JDK全局环境变量

                    Linux下搭建Hadoop2.7.1伪分布式过程_第4张图片

                     在/etc/profile文件末尾添加:

                             JAVA_HOME=JDK的解压路径

                             HADOOP_HOME=HADOOP的解压路径

                             

                     检查配置是否成功

                            source /etc/profile   更新/etc/profile文件

                            java -version       查看JDK的版本号

                            hadoop version      查看Hadoop的版本号

                            Linux下搭建Hadoop2.7.1伪分布式过程_第5张图片

        第四步:配置Hadoop文件(配置文件在Hadoop安装包的etc/hadoop目录下)

                      1、配置Hadoop的core-site.xml文件

                            

                   

                           fs.defaultFS

                           hdfs://localhost:9000           指定hdfs系统的主机及端口号

                   

                   

                          hadoop.tmp.dir

                          /home/hadoop/apps/hadoop-2.7.1/tmp          指定hadoop的临时文件路径

                   

               

           2、配置Hadoop的hdfs-site.xml文件

                

     

        dfs.namenode.name.dir

        /home/hadoop/apps/hadoop-2.7.1/data/name     指定namenode节点进程对应文件的存放路径。

     

     

         dfs.datanode.data.dir

         /home/hadoop/apps/hadoop-2.7.1/data/data    指定datanode节点进程对应文件的存放路径

       

       

           dfs.replication

           3

       

       

         dfs.secondary.http.address

         localhost:50090

       

   

3、copy一份mapred-site.xml.template 命名为mapred-site.xml文件

      

         

             mapreduce.framework.name

             yarn                                              指定mapreduce工作的资源管理器

         

     

                         4、配置Hadoop的yarn-site.xml文件

      

         

             yarn.resourcemanager.hostname

             localhost   

         

         

             yarn.nodemanager.aux-services

             mapreduce_shuffle

         

     

5、修改hadoop的hadoop-env.sh文件

     找到export JAVA_HOME把值设置为JDK的安装路径

     

第五步:Hadoop格式化

              命令hdfs namenode -format

              注意控制台输出的信息,有没有报错,这个时间的报错一般为配置文件的书写错误。

              如果没有报错信息,并且出现了下图中红框中的内容,说明已经格式化成功。

  Linux下搭建Hadoop2.7.1伪分布式过程_第6张图片

第六步:启动分布式文件系统

              命令start-dfs.sh

              启动成功,使用jps查看相关进程,出现Hadoop的三个进程:

                     NameNode

                     DataNode

        SecondaryNameNode

                          这个时间通过浏览器访问http://虚拟机主机IP:50070    可以进入一下界面

                          Linux下搭建Hadoop2.7.1伪分布式过程_第7张图片

           第七步:启动start-yarn.sh

              启动成功,使用jps查看相关进程,出现Hadoop的另外两个进程:

                     NodeManager

                     ResourceManager

第八步:运行Hadoop官网的wordcount实例

              1、上传Linux系统中的任意文件到HDFS分布式文件系统的跟目录下。

                    命令hadoop fs -put  Linux系统中的文件路径 /

                    如:hadoop fs /home/hadoop/apps/hadoop-2.7.1/etc/hadoop/core-site.xml /

              2、运行Hadoop官方wordcount实例

                    命令hadoop fs jar hadoop安装目录/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar  wordcount /core-site.xml /output

                    如:hadoop jar /home/hadoop/apps/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /core-site.xml /output

                   运行过程没有报错,说明Hadoop伪分布式环境已经完成。

         Linux下搭建Hadoop2.7.1伪分布式过程_第8张图片

                   使用hadoop fs -ls /output/命令可以查看计算结果文件,使用hadoop fs -cat /output/part-r-00000可以查看结果信息。

你可能感兴趣的:(大数据环境搭建)