Spark开发环境搭建

归档至github

Spark本地安装

  • Java 安装
  • Spark 安装
  • PySpark 安装

Java安装

这一部分不多赘述,配置好Java 环境变量即可。

Spark 安装

在官网下载所需版本的Spark 压缩包

Spark开发环境搭建_第1张图片

解压至对应目录,如 C:\dev\spark1.6.3
配置环境变量


这时,进入cmd 命令行,可以启动。


Spark开发环境搭建_第2张图片

Pyspark 安装

要求在本机已经安装好Spark。此外python 3.6 版本不兼容Spark 1.6,使用时需要注意。
新增环境变量:PYTHONPATH
值为:%SPARK_HOME%\Python;%SPARK_HOME%\python\lib\py4j-0.9-src.zip

同时,在python 的配置的Lib\site-packages 中新增pyspark.pth 文件,内容为

C:\dev\spark1.6.3\python

重启CMD ,输入pyspark 即可


Spark开发环境搭建_第3张图片

ubuntu 下搭建 参见 这篇说明

开发环境搭建

Scala

搭建一个maven 工程即可pom.xml 如下:


  4.0.0
  com.ych
  ychTestSpark4S
  1.0-SNAPSHOT
  2008
    
        1.6.2
        2.10
    

  
    
      scala-tools.org
      Scala-Tools Maven2 Repository
      http://scala-tools.org/repo-releases
    
  

  
    
      scala-tools.org
      Scala-Tools Maven2 Repository
      http://scala-tools.org/repo-releases
    
  



  
    
      org.apache.spark
      spark-core_${scala.version}
      ${spark.version}
    
    
      org.apache.spark
      spark-streaming_${scala.version}
      ${spark.version}
    
    
      org.apache.spark
      spark-sql_${scala.version}
      ${spark.version}
    
    
      org.apache.spark
      spark-hive_${scala.version}
      ${spark.version}
    
    
      org.apache.spark
      spark-mllib_${scala.version}
      ${spark.version}
    

    
      org.apache.avro
      avro
      1.7.7
    


    
      junit
      junit
      4.4
      test
    
    
      org.specs
      specs
      1.2.5
      test
    
    
      com.databricks
      spark-csv_2.10
      1.0.3
    
  

  
    
      
        org.scala-tools
        maven-scala-plugin
        
          
            
              compile
              testCompile
            
          
        
        
          ${scala.version}.6
          
            -target:jvm-1.5
          
        
      
      
        org.apache.maven.plugins
        maven-eclipse-plugin
        
          true
          
            ch.epfl.lamp.sdt.core.scalabuilder
          
          
            ch.epfl.lamp.sdt.core.scalanature
          
          
            org.eclipse.jdt.launching.JRE_CONTAINER
            ch.epfl.lamp.sdt.launching.SCALA_CONTAINER
          
        
      
    
  
  
    
      
        org.scala-tools
        maven-scala-plugin
        
          ${scala.version}
        
      
    
  


Java 开发环境

同Scala

python

设定好,需要使用的python 环境即可。
spyder 根据anaconda 设定的python 环境,选择对应的spyder 启动即可。
pycharm 如下配置:


Spark开发环境搭建_第4张图片

你可能感兴趣的:(Spark开发环境搭建)