实战Spark从入门到精通(二):Spark急速上手,给小白的3分钟入门指南

系列文章目录

实战Spark从入门到精通(一):一文带你全面了解Spark大数据处理框架


文章目录

  • 系列文章目录
  • 前言
    • 快速上手Spark的第一步:了解Scala基础
    • Spark的灵魂:SparkContext
    • 3分钟上手Spark的第一个例子
    • Spark最经典案例:WordCount实战
      • 步骤1:按Tab分割每行文本成单词数组
      • 步骤2:将每个单词转为(单词,1)的键值对
      • 步骤3:按单词分组并求和
      • 一行代码版WordCount
    • 性能小技巧:使用缓存加速
    • 写在最后


前言

上次聊完Spark的基本概念,有不少小伙伴在后台留言,说"讲得挺好,但能不能来点实操?光说不练假把式啊!"

没错,大数据这东西,不动手跑两把代码,听再多理论都是纸上谈兵。

所以今天咱们就先来尝尝Spark的味道,先亲自体验一下Spark开发大概是什么样子的,也许你会有不一样的感觉哦~
实战Spark从入门到精通(二):Spark急速上手,给小白的3分钟入门指南_第1张图片


快速上手Spark的第一步:了解Scala基础

Spark主要使用Scala语言开发,虽然它也支持Java、Python等,但Scala是亲儿子,API最全面。不过别担心,Scala的入门语法并不复杂。

记住,Scala和Java最大的区别之一就是变量声明方式不同:

Java声明变量是这样的:

String a = "aaa";
int b = 0;

而Scala只有两种修饰符:

val a = 0;  //使用val修饰的变量,值不可更改(类似Java的final)
var b = 0;  //使用var修饰的变量,值可以更改

注意看,Scala甚至不需要你声明变量类型,它会自动推断。是不是感觉很简洁?这也是为什么有人说"用Scala写的代码行数只有Java的一半"。

Spark的灵魂:SparkContext

所有Spark程序的入口都是一个叫SparkContext的东西,通常我们简称它为"sc"。它是怎么来的呢?

就是这么来的:

val conf = new SparkConf();
val sc = new SparkContext(conf);

另外,如果你在spark-shell中使用(就是交互式命令行&#x

你可能感兴趣的:(实战Spark从入门到精通,spark,大数据,分布式)