-----------------------------------------------------------------------正文分割线--------------------------------------------------------------------------
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 [1] 。现在形成一个高速发展应用广泛的生态系统。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。
下载地址为: http://spark.apache.org/downloads.html
点击红框位置即可下载spark的bin文件,此时可能会跳转至spark的镜像下载网页,点击链接即可下载,下载好了解压即可, 这里注意不要将解压好的spark和Hadoop以及要安装的Java JDK放在含有空格的目录中,否则Hadoop可能会报错。
解压完成后,新建系统变量SPARK_HOME,值为Spark解压路径,配置系统变量PATH,添加%SPARK_HOME%,%SPARK_HOME%\bin及%SPARK_HOME%\sbin (这里注意直接在path中添加spark的路径也可以,即不添加系统变量SPARK_HOME,添加SPARK_HOME只是为了方便以后路径修改等其他操作)
注意:添加完路径后可能不会马上生效,可以尝试重启电脑或者稍后重新打开命令行即可,此时已经可以在命令行输入pyspark、spark-shell等,但是会报错,因为电脑中还为安装hadoop的环境。
在后续学习使用Spark的过程中,可能会想对内部运行过程作深入的了解,但是在翻看日志的时候可能有用的信息还没找到,就被大量的检测日志给弄得厌倦了。所以这里可以对Spark的日志进行适当跳转让其只记录较为重要的信息。Spark日志的配置文件是$SPARK_HOME/conf/log4j.properties,默认级别是INFO,这里可以将其调整为WARN。具体操作为:
选择…\spark\conf\目录下log4j.properties.template,复制为log4j.properties
将log4j.properties中,"INFO, console"改为"WARN, console"
安装hadoop环境 ,hadoop又需要Scala的环境或者Java的环境,所以还需要下载Scala或者JDK8。
JDK在这儿下载: https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
添加环境变量:
创建JAVA_HOME:C:\Program Files\Java\jdk1.8.0_181
创建CLASSPATH:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar(前面有个点号)
Path添加:%JAVA_HOME%\bin;
测试是否安装成功:打开cmd命令行,输入java -version
或者安装Scala,它和SDK只需要安装一个即可。
下载链接 https://downloads.lightbend.com/scala/2.12.3/scala-2.12.3.msi
创建系统变量 SCALA_HOME为C:\Program Files (x86)\scala(安装路径), 然后添加%SCALA_HOME%\bin到系统PATH变量中,打开cmd窗口,输入scala,测试安装结果。
hadoop下载
访问官方http://hadoop.apache.org/releases.html
下载好之后,解压,配置HADOOP_HOME&Path
之后cmd输入hadoop测试结果,如果没问题就可以愉快的使用spqrk了。
---------------------
[1]http://spark.apache.org/