Spark Core:第五章 共享变量

Spark Core:第五章 共享变量


文章目录

  • Spark Core:第五章 共享变量
    • 一、广播变量
    • 二、累加器
    • 三、知识点补充
      • 1. PV&UV
      • 2. 面试简答


—>Spark知识点总结导航<—


一、广播变量

1. 当Executor端使用到了Driver的变量

   (1) 不使用广播变量,Executor中有多少task就有多少变量副本

   (2) 使用广播变量,每个Executor只有一份Driver端的变量

2. 注意

   (1) 不能 将RDD广播出去,可以将RDD的结果广播出去

   (2) 广播变量只能在Driver端定义,在Executor 不能改变


二、累加器

1. 相当于集群中的统筹变量

2. 注意

   (1) 累加器只能在Dirver端定义,初始化,不能在Executor端定义初始化

   (2) 累加器不能在Executor端.value获取值


三、知识点补充

1. PV&UV

PV: page view 页面浏览量

UV: unique vistor

2. 面试简答

   (1) Spark 任务调度源码

     Action算子开始

   (2) 二次排序

     自定义类型 实现comparable接口 实现comparTo方法

   (3) 分组取topN

     ① groupByKey+Collections.sort(…)

     ② groupByKey+定长数组


--->有问题请联系QQ1436281495^_^

你可能感兴趣的:(大数据阶段,#,Spark,spark,集群,大数据,Linux)