Windows下Spark的使用(1)--Spark配置与部署

1.如果想直接在python中使用Spark,也就是pySpark,那么 pip install pyspark是个不错的选择,但是前提是网络要比较稳定,这个大约二百多M,下载速度一般情况为几十k,大概四十分钟搞定。

2.Spark 的包中包含sql、Java(Scala)和 Python以及R的编译包,装好之后都可以方便的调用,所以你使用哪种语言来编写程序和怎么配置Spark没有区别。

-----------------------------------------------------------------------正文分割线--------------------------------------------------------------------------

什么是Spark

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 [1]  。现在形成一个高速发展应用广泛的生态系统。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。

Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。

Windows下配置Spark

Spark的安装 

下载地址为: http://spark.apache.org/downloads.html

Windows下Spark的使用(1)--Spark配置与部署_第1张图片

点击红框位置即可下载spark的bin文件,此时可能会跳转至spark的镜像下载网页,点击链接即可下载,下载好了解压即可, 这里注意不要将解压好的spark和Hadoop以及要安装的Java JDK放在含有空格的目录中,否则Hadoop可能会报错。

解压完成后,新建系统变量SPARK_HOME,值为Spark解压路径,配置系统变量PATH,添加%SPARK_HOME%,%SPARK_HOME%\bin及%SPARK_HOME%\sbin (这里注意直接在path中添加spark的路径也可以,即不添加系统变量SPARK_HOME,添加SPARK_HOME只是为了方便以后路径修改等其他操作)

Windows下Spark的使用(1)--Spark配置与部署_第2张图片

注意:添加完路径后可能不会马上生效,可以尝试重启电脑或者稍后重新打开命令行即可,此时已经可以在命令行输入pyspark、spark-shell等,但是会报错,因为电脑中还为安装hadoop的环境。

在后续学习使用Spark的过程中,可能会想对内部运行过程作深入的了解,但是在翻看日志的时候可能有用的信息还没找到,就被大量的检测日志给弄得厌倦了。所以这里可以对Spark的日志进行适当跳转让其只记录较为重要的信息。Spark日志的配置文件是$SPARK_HOME/conf/log4j.properties,默认级别是INFO,这里可以将其调整为WARN。具体操作为:

选择…\spark\conf\目录下log4j.properties.template,复制为log4j.properties

将log4j.properties中,"INFO, console"改为"WARN, console"

 

Hadoop安装 

安装hadoop环境 ,hadoop又需要Scala的环境或者Java的环境,所以还需要下载Scala或者JDK8。

JDK在这儿下载: https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

添加环境变量:

创建JAVA_HOME:C:\Program Files\Java\jdk1.8.0_181

创建CLASSPATH:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar(前面有个点号)

Path添加:%JAVA_HOME%\bin;

测试是否安装成功:打开cmd命令行,输入java -version


或者安装Scala,它和SDK只需要安装一个即可。

下载链接 https://downloads.lightbend.com/scala/2.12.3/scala-2.12.3.msi

创建系统变量 SCALA_HOME为C:\Program Files (x86)\scala(安装路径), 然后添加%SCALA_HOME%\bin到系统PATH变量中,打开cmd窗口,输入scala,测试安装结果。

hadoop下载

访问官方http://hadoop.apache.org/releases.html

Windows下Spark的使用(1)--Spark配置与部署_第3张图片

下载好之后,解压,配置HADOOP_HOME&Path

Windows下Spark的使用(1)--Spark配置与部署_第4张图片

之后cmd输入hadoop测试结果,如果没问题就可以愉快的使用spqrk了。

--------------------- 

[1]http://spark.apache.org/

你可能感兴趣的:(教程)