如何安装并使用pyspark

1. Anaconda的安装

      (1)我们要把本地Anaconda上传到Linux上,我们使用xshell中的文件传输,它会自己运行xftp,前提是我们要有xftp

如何安装并使用pyspark_第1张图片

上传后我们来运行这个文件,但我在运行过程中它提示我要安装一个bzip2的东西,我这里就先写一下吧

   (2)安装bzip2

         安装软件要切换到root用户下才能够使用,因为普通用户没这个权限

         在root用户下输入  yum -y install bzip2

                 

       然后我们退出root用户,开始来安装Anaconda  bashAnaconda3-5.0.1-Linux-x86_64.sh了,

                    如何安装并使用pyspark_第2张图片

                      如何安装并使用pyspark_第3张图片

                                 

                      如何安装并使用pyspark_第4张图片

            在这里等待一段时间

              如何安装并使用pyspark_第5张图片

           看到这个就说明我们安装好了Anaconda3了

              

         然后来更新下环境变量

            

         接着我们来看下我们的python版本

         

     看到python3版本就说明我们当前的python版本是python3,这个python在Anaconda3中

2. 安装spark

         (1) 使用xshell和xftp来把这个spark版本导入到hadoop用户下并解压到opt目录下

          (2)配置spark的环境变量,这个环境配置和之前的jbk和hadoop配置一样,也是在spark目录下声明一个变量,将当前路径赋给该变量,这里我就不多说,可以看我之前写的如何配置hadoop环境的写法。它只有SPARK_HOME和PATH,将之前我配置的环境变量稍微改下就行了,这没有SPARK_CONF_DIR,这点要记住

               使得hadoop用户下的.bashrc文件有spark的环境设置

如何安装并使用pyspark_第6张图片

看到这个后,更新下环境变量,source ~/.bashrc

   (2)然后我们输入spark-shell

如何安装并使用pyspark_第7张图片

看到上面这个就说明我们的spark能运行了

3. 使用notebook

          (1)在使用之前要先开启hadoop

                  使用  start-dfs.sh  回车

          (2)输入  jupyter-notebook  -- ippython2

               这里这个python是我们的的主机名,如果主机名错误的话它也不会启动,我们来输入这个命令,就会看到以下内容:

如何安装并使用pyspark_第8张图片

 把这个链接赋值下拿到浏览器中去访问,我们就会看到

           如何安装并使用pyspark_第9张图片

点击我们箭头指向的地方的文件,就会看到以下东西,当然这个代码是我自己打的,我们要把这段代码复制上去,然后运行一下

就会看到如箭头所指的地方出来这东西,说明我们能在这使用spark了,记住,我们现在敲的代码是python代码,具有python风格,但其中也有spark的内容在其中

如何安装并使用pyspark_第10张图片

            

你可能感兴趣的:(hadoop,python)