spark 入门教程

一、安装scala环境

        官网下载地址 Download | The Scala Programming Language,本次使用版本为sacla2.11.12,将压缩包解压至指定目录,配置好环境变量,控制台验证是否安环境是否可用:

spark 入门教程_第1张图片二、添加pom依赖

     创建一个maven项目

1、添加scala的sdk依赖

  
    2.11.12
  
 
   
      org.scala-lang
      scala-library
      ${scala.version}
    
 
    
      org.scala-lang
      scala-compiler
      ${scala.version}
    
 
    
      org.scala-lang
      scala-reflect
      ${scala.version}
    

2、添加spark依赖

  
      org.apache.spark
      spark-core_2.11
      2.4.8
    
 
    
      org.apache.spark
      spark-streaming_2.11
      2.4.8
      provided
    

三、入门应用

1、数据源

   test_spark.txt

中国 河南
中国 浙江
河南 郑州
浙江 杭州
河南 洛阳
浙江 宁波
美国 纽约
纽约 华尔街
美国 吉利福尼亚
加利福尼亚 落砂机

2、编码实现

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
 
object SparkWordCount {
  def main(args: Array[String]): Unit = {
    ///使用本地模式连接spark
    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    val sc = new SparkContext(conf)
    ///读取文件中每一行字符 存入到是数据集合RDD中
    val lines: RDD[String] = sc.textFile("D:/workplace/java-item/res/file/test_spark.txt")
    /// 将数据集合进行扁平化操作  以字符空格分割
    val tuples = lines.flatMap(_.split(" ")).groupBy(word => word).map({ case (w, l) => (w, l.size) }).collect()
    tuples.foreach(println)
  }
}

你可能感兴趣的:(BigData,spark,大数据,分布式)