Spark Task执行流程源码分析系列之二: 任务构建&调度&资源分配

上一节我们介绍了Task各个环节用到的主要数据结构，本节我们来看看Spark中一个Task是如何构建起来的，又是如何获取到资源，然后提交给集群相应的资源进行启动的。

任务构建&提交

Spark job内部是通过DAG来维护血缘关系的，通过shuffle算子进行stage的划分，上游stage计算完成后，下游stage才能进行，在一个stage中有多个任务需要执行，划分完stage后就会对同一个stage的任务集合进行提交，然后分配资源执行任务，我们先来看下任务提交入口，步骤如下:

首先清空需要计算的stage待处理分区的索引的集合，找出当前stage还没有计算的分区<一个分区是一个Task>；
将当前stage加入到runningStages集合中，并启动对当前stage输出提交到HDFS的协调机制；
计算每个需要计算分区对应任务的偏好分区位置，以方便调度时候找到最合适的位置信息；
对任务进行序列化并广播，ShuffleMapTask会对Stage的rdd和ShuffleDependency进行序列化，ResultTask则是对Stage的rdd和对RDD的分区进行计算的函数func进行序列化；
构建Task集合TaskSet，根据stage的类型创建ShuffleMapTask或者ResultTask集合；
如果集合长度大于0，说明当前stage还有没有未执行的任务，交由TaskScheduler进行调度执行；如果集合长度为0，表明这个stage已经完成了，可以触发下游stage进行执行尝试(由于下一个stage可能依赖多个上游stage，所以也不一定会直接执行)。

// org.apache.spark.scheduler.DAGScheduler 
private def submitMissingTasks(stage: Stage, jobId: Int) {  
  // 清空当前Stage的pendingPartitions，便于记录需要计算的分区任务。
  stage.pendingPartitions.clear()
  // 找出当前Stage的所有分区中还没有完成计算的分区的索引
  val partitionsToCompute: Seq[Int] = stage.findMissingPartitions()
  // 获取ActiveJob的properties。properties包含了当前Job的调度、group、描述等属性信息。
  val properties = jobIdToActiveJob(jobId).properties

  // 将stage添加到runningStages集合中，表示其正在运行
  runningStages += stage
  // 启动对当前Stage的输出提交到HDFS的协调机制
  stage match {
    case s: ShuffleMapStage =>
    outputCommitCoordinator.stageStart(stage = s.id, maxPartitionId = s.numPartitions - 1)
    case s: ResultStage =>
    outputCommitCoordinator.stageStart(stage = s.id, maxPartitionId = s.rdd.partitions.length - 1)
  }
  // 获取还没有完成计算的每一个分区的偏好位置
  val taskIdToLocations: Map[Int, Seq[TaskLocation]] = try {
    stage match {
      case s: ShuffleMapStage =>
      partitionsToCompute.map { id => (id, getPreferredLocs(stage.rdd, id))}.toMap
      case s: ResultStage =>
      partitionsToCompute.map { id =>
        val p = s.partitions(id)
        (id, getPreferredLocs(stage.rdd, p))
      }.toMap
    }
  } catch {
    // 如果发生任何异常，则调用Stage的makeNewStageAttempt()方法开始一次新的Stage执行尝试
    case NonFatal(e) =>
    ...
    return
  }

  // 开始Stage的执行尝试,对这次stage进行分装分配attemptId
  stage.makeNewStageAttempt(partitionsToCompute.size, taskIdToLocations.values.toSeq)
  // 向事件总线投递SparkListenerStageSubmitted事件
  listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))
  
  // 对任务进行序列化并广播
  var taskBinary: Broadcast[Array[Byte]] = null
  try {
    val taskBinaryBytes: Array[Byte] = stage match {
      // 对Stage的rdd和ShuffleDependency进行序列化
      case stage: ShuffleMapStage =>
      JavaUtils.bufferToArray(closureSerializer.serialize((stage.rdd, stage.shuffleDep): AnyRef))
      // 对Stage的rdd和对RDD的分区进行计算的函数func进行序列化
      case stage: ResultStage =>
      JavaUtils.bufferToArray(closureSerializer.serialize((stage.rdd, stage.func): AnyRef))
    }

    // 广播任务的序列化对象
    taskBinary = sc.broadcast(taskBinaryBytes)
  } catch {
    case e: NotSerializableException =>
    ...
    return
    case NonFatal(e) =>
    ...
    return
  }

  // 创建Task序列
  val tasks: Seq[Task[_]] = try {
    stage match {
      case stage: ShuffleMapStage => // 为ShuffleMapStage的每一个分区创建一个ShuffleMapTask
      partitionsToCompute.map { id 
        val locs = taskIdToLocations(id)  // 对应分区的偏好位置序列
        val part = stage.rdd.partitions(id)   // RDD的分区
        // 创建ShuffleMapTask
        new ShuffleMapTask(stage.id, stage.latestInfo.attemptId,
                           taskBinary, part, locs, stage.latestInfo.taskMetrics, properties, Option(jobId),
                           Option(sc.applicationId), sc.applicationAttemptId)
      }

      case stage: ResultStage => // 为ResultStage的每一个分区创建一个ResultTask
      partitionsToCompute.map { id =>
        val p: Int = stage.partitions(id)
        val part = stage.rdd.partitions(p)  // RDD的分区
        val locs = taskIdToLocations(id)  // 分区偏好位置序列
        // 创建ResultTask
        new ResultTask(stage.id, stage.latestInfo.attemptId,
                       taskBinary, part, locs, id, properties, stage.latestInfo.taskMetrics,
                       Option(jobId), Option(sc.applicationId), sc.applicationAttemptId)
      }
    }
  } catch {
    case NonFatal(e) =>
    ...
    return
  }

  if (tasks.size > 0) { // Task数量大于0
    // 将提交的分区添加到pendingPartitions集合中，表示它们正在等待处理
    stage.pendingPartitions ++= tasks.map(_.partitionId)
    // 为这批Task创建TaskSet，调用TaskScheduler的submitTasks方法提交此批Task
    taskScheduler.submitTasks(new TaskSet(
      tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, properties))
    // 记录最后一次提交时间
    stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
  } else { // Task数量为0，没有创建任何Task
    // 将当前Stage标记为完成
    markStageAsFinished(stage, None)
    // 提交当前Stage的子Stage
    submitWaitingChildStages(stage)
  }
}

DAGScheduler向TaskScheduler提交了TaskSet之后，TaskSchedulerImpl会为每个TaskSet创建一个TaskSetManager对象，该对象包含TaskSet所有 tasks，并管理这些tasks的调度，执行以及失败重试等，TaskSetManager新建后，会加入到调度池中，进行调度执行，最后会通过scheduleBackend进行资源的申请来运行这些job。

// org.apache.spark.scheduler.TaskSchedulerImpl
override def submitTasks(taskSet: TaskSet) {
  val tasks = taskSet.tasks  // 获取TaskSet中的所有Task
  this.synchronized {
    val manager = createTaskSetManager(taskSet, maxTaskFailures)  // 创建TaskSetManager
    val stage = taskSet.stageId  // TaskSet的Stage
    // 更新taskSetsByStageIdAndAttempt中记录的推测执行信息
    val stageTaskSets = taskSetsByStageIdAndAttempt.getOrElseUpdate(stage, new HashMap[Int, TaskSetManager])
    stageTaskSets(taskSet.stageAttemptId) = manager
    // 判断是否有冲突的TaskSet，taskSetsByStageIdAndAttempt中不应该存在同属于当前Stage，但是TaskSet却不相同的情况
    val conflictingTaskSet = stageTaskSets.exists { case (_, ts) =>
      ts.taskSet != taskSet && !ts.isZombie
    }
    if (conflictingTaskSet) {
      throw new IllegalStateException(s"more than one active taskSet for stage $stage:" +
                                      s" ${stageTaskSets.toSeq.map{_._2.taskSet.id}.mkString(",")}")
    }

    // 将刚创建的TaskSetManager添加到调度池构建器的调度池中
    schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties)
    ...
  }
  // 给Task分配资源并运行Task
  backend.reviveOffers()
}

任务集调度

调度池Pool

DAGScheduler负责构建具有依赖关系的任务集，TasksetManager负责在特定任务集的内部调度任务，CoarseGrainedSchedulerBackend负责任务的资源管理和任务启动，TaskSchedulerImpl负责分配资源给TasksetManager，让它进行任务的启动。但是Spark在运行一个job时候，可能同时存在多个可运行的任务集，这些任务集之间如何调度则是由调度池pool来进行协调管理来决定的，具体的实现在org.apache.spark.scheduler.Pool中，调度池内部有一个根调度队列<rootPool>，根调度队列中包含了多个子调度池。子调度池自身的调度队列中还可以包含其他的调度池或者TaskSetManager，所以整个调度池是一个多层次的调度队列，我们先来看下调度池的私有变量:

schedulableQueue是Schedulable的子类，目前只有Pool和TaskSetManager两种实现，所以调度池中还可以有调度池或者是需要调度的任务集合；
schedulableNameToSchedulable是记录调度的名称与具体的Schedulable的映射关系；
weight和minShare都是Fair调度时候用的参考值；
runningTasks记录当前pool运行的任务数目，也会用到Fair调度中。

private[spark] class Pool(
    val poolName: String,
    val schedulingMode: SchedulingMode,
    initMinShare: Int,
    initWeight: Int)
  extends Schedulable with Logging {
    // 用于存储Schedulable，是一个可以嵌套的层次结构
  	val schedulableQueue = new ConcurrentLinkedQueue[Schedulable]
  	// 调度名称与Schedulable的对应关系
  	val schedulableNameToSchedulable = new ConcurrentHashMap[String, Schedulable]
    // 用于公平调度算法的权重
  	var weight = initWeight
 	  // 用于公平调度算法的参考值
  	var minShare = initMinShare
    // 当前正在运行的任务数量
    var runningTasks = 0
    // 进行调度的优先级
    var priority = 0
  }

添加&删除&获取调度任务

由于schedulableQueue记录了所有的Schdulable，schedulableNameToSchedulable记录了名字与Schedule的映射关系，所以在添加和删除时候只用对齐更改即可。

// 将Schedulable添加到schedulableQueue和schedulableNameToSchedulable中， 并将Schedulable的父亲设置为当前Pool
override def addSchedulable(schedulable: Schedulable) {
  require(schedulable != null)
  schedulableQueue.add(schedulable)
  schedulableNameToSchedulable.put(schedulable.name, schedulable)
  schedulable.parent = this
}

// 将指定的Schedulable从schedulableQueue和schedulableNameToSchedulable中移除
override def removeSchedulable(schedulable: Schedulable) {
  schedulableQueue.remove(schedulable)
  schedulableNameToSchedulable.remove(schedulable.name)
}

// 用于根据指定名称查找Schedulable
override def getSchedulableByName(schedulableName: String): Schedulable = {
  if (schedulableNameToSchedulable.containsKey(schedulableName)) {
    // 当前Pool的schedulableNameToSchedulable中存在就从当前Pool中获取
    return schedulableNameToSchedulable.get(schedulableName)
  }
  // 否则遍历schedulableQueue中的每个Schedulable对象
  for (schedulable <- schedulableQueue.asScala) {
    // 调用每个Schedulable对象的getSchedulableByName()方法获取
    val sched = schedulable.getSchedulableByName(schedulableName)
    if (sched != null) {
      return sched
    }
  }
  null
}

调度算法&排序调度实体

当有了资源后，执行哪个stage的任务呢，是如何进行排序的呢？这是由SchedulingAlgorithm来决定的，有两种算法FairSchedulingAlgorithm和FIFOSchedulingAlgorithm，并且提供了按照排序算法获取不同stage任务执行先后顺序的函数，可以看出会先对rootPool按照排序算法排序，然后对于每个子Pool的进行排序，最后得到排好序的任务集合队列，按照队列中顺序执行对应Schedulable中的任务，getSortedTaskSetQueue是提供给TaskScheduler使用的获取排序的任务集合的列表的方法。

// 任务集合的调度算法，默认为FIFOSchedulingAlgorithm
var taskSetSchedulingAlgorithm: SchedulingAlgorithm = {
  schedulingMode match {
    case SchedulingMode.FAIR =>
    new FairSchedulingAlgorithm()
    case SchedulingMode.FIFO =>
    new FIFOSchedulingAlgorithm()
    case _ =>
    val msg = "Unsupported scheduling mode: $schedulingMode. Use FAIR or FIFO instead."
    throw new IllegalArgumentException(msg)
  }
}

// 对当前Pool中的所有TaskSetManager按照调度算法进行排序，并返回排序后的TaskSetManager
override def getSortedTaskSetQueue: ArrayBuffer[TaskSetManager] = {
  var sortedTaskSetQueue = new ArrayBuffer[TaskSetManager]
  // 对schedulableQueue内的元素进行排序
  val sortedSchedulableQueue =
  schedulableQueue.asScala.toSeq.sortWith(taskSetSchedulingAlgorithm.comparator)
  for (schedulable <- sortedSchedulableQueue) {
    sortedTaskSetQueue ++= schedulable.getSortedTaskSetQueue
  }
  sortedTaskSetQueue
}

调度算法

调度算法是对两个Schedulable的TaskSetManager或者Pool进行排序，具体是实现comparator接口，来比较两个Schedulable。

private[spark] trait SchedulingAlgorithm {
  // 用于对两个Schedulable进行比较
  def comparator(s1: Schedulable, s2: Schedulable): Boolean
}

FIFOSchedulingAlgorithm

FIFOSchedulingAlgorithm是先进先出的排序算法，首先会根据JobId进行比较，选取比较较小的jobId，这是因为越早提交的作业，JobId越小；然后如果是同一个Job，则根据stageId进行比较，因为对同一个Job越早生成的Stage，其StageId越小，有依赖关系的多个Stage之间，DAGScheduler会控制Stage是否会被提交到调度队列中[若其依赖的Stage未执行完前，此Stage不会被提交]，其调度顺序可通过此来保证，但若某Job中有两个无入度的Stage的话，则先调度StageId小的Stage，比较函数的执行步骤如下:

先获取两个Schedulables1和s2的优先级，在DAGscheduler创建TaskSet时使用JobId做为优先级的值；
使用优先级进行比较，如果结果小于0，则优先调度s1，否则优先调度s2；
如果优先级相同，则对两个Schedulable stageId进行比较，优先调度stageId小的。

// 先进先出算法，先比较优先级，再比较Stage ID
private[spark] class FIFOSchedulingAlgorithm extends SchedulingAlgorithm {
  override def comparator(s1: Schedulable, s2: Schedulable): Boolean = {
    val priority1 = s1.priority
    val priority2 = s2.priority
    // 对s1和s2两个Schedulable的优先级进行比较
    var res = math.signum(priority1 - priority2)
    if (res == 0) {
      val stageId1 = s1.stageId
      val stageId2 = s2.stageId
      // 对s1和s2所属的Stage的身份标识进行比较
      res = math.signum(stageId1 - stageId2)
    }
    res < 0
  }
}

FairSchedulingAlgorithm

FairSchedulingAlgorithm是公平调度算法，会根据目前两个Schedulable的运行的任务数目，最少的运行任务数目要求，以及它们之间的比值来进行比较。具体的比较是未满足minShare规定份额的资源的队列或任务集先执行；如果所有均不满足minShare的话，则选择缺失比率小的先调度；如果均不满足，则按执行权重比进行选择，先调度执行权重比小的；如果执行权重也相同的话则会选择StageId小的进行调度[name=“TaskSet_”+ taskSet.stageId.toString]。具体步骤如下:

获取s1，s2的minShare<最少运行任务数目>，runningTasks<运行任务数目>，Needy<是否满足配额，也就是运行中任务是否达到了规定的最小运行数目>，minShareRatio<正在运行的任务数量与最小运行任务数目之间的比值，比值越小说明缺乏资源越多>，taskToWeightRatio<正在运行的任务数量与权重之间的比值。>的信息；
首先要先比较Scheduler目前运行的任务数目跟minShare的大小:
1. 如果s1的正在运行task数小于minShare，并且s2的正在运行task数大于等于minShare，则说明s1的分配的资源不足，优先调度s1；
2. 反之，如果s1的正在运行task数大于等于minShare，并且s2的正在运行task数小于minShare，则说明s2的分配的资源不足，优先调度s2；
如果s1和s2的正在运行task数都小于minShare，那么对minShareRatio进行比较，如果s1的minShareRatio小于s2的minShareRatio，那么优先调度s1，反之优先调度s2
如果s1和s2的正在运行task数都大于等于minShare，则对taskToWeightRatio进行比较，如果s1的taskToWeightRatio小于s2的taskToWeightRatio，那么优先调度s1，反之优先调度s2
如果minShareRatio或taskToWeightRatio比值相等，则比较s1和s2的name，如果s1小于s2，则优先调度s1，反之优先调度s2。

// 公平调度算法
private[spark] class FairSchedulingAlgorithm extends SchedulingAlgorithm {
  override def comparator(s1: Schedulable, s2: Schedulable): Boolean = {
    val minShare1 = s1.minShare
    val minShare2 = s2.minShare
    val runningTasks1 = s1.runningTasks
    val runningTasks2 = s2.runningTasks
    // 处于运行状态的Task的数量是否小于s1的minShare
    val s1Needy = runningTasks1 < minShare1
    val s2Needy = runningTasks2 < minShare2
    // 正在运行的任务数量与minShare之间的比值
    val minShareRatio1 = runningTasks1.toDouble / math.max(minShare1, 1.0)
    val minShareRatio2 = runningTasks2.toDouble / math.max(minShare2, 1.0)
    // 正在运行的任务数量与权重（weight）之间的比值
    val taskToWeightRatio1 = runningTasks1.toDouble / s1.weight.toDouble
    val taskToWeightRatio2 = runningTasks2.toDouble / s2.weight.toDouble

    var compare = 0
    if (s1Needy && !s2Needy) {
      // 运行状态的Task的数量：s1不满足份额；s2满足份额
      return true
    } else if (!s1Needy && s2Needy) {
      // 运行状态的Task的数量：s1满足份额；s2不满足份额
      return false
    } else if (s1Needy && s2Needy) {  // 运行状态的Task的数量：s1和s2都不满足份额
      // minShareRatio是正在运行的任务数量与minShare之间的比值。
      // 如果minShareRatio1小于minShareRatio2，则优先调度s1；
      // 如果minShareRatio2小于minShareRatio1，则优先调度s2。
      // 如果minShareRatio1和minShareRatio2相等，还需要对s1和s2的名字进行比较。
      compare = minShareRatio1.compareTo(minShareRatio2)
    } else { // 运行状态的Task的数量：s1和s2都满足份额
      // taskToWeightRatio是正在运行的任务数量与权重（weight）之间的比值。
      // 如果taskToWeightRatio1小于taskToWeightRatio2，则优先调度s1；
      // 如果taskToWeightRatio2小于taskToWeightRatio1，则优先调度s2。
      // 如果taskToWeightRatio1和taskToWeightRatio2相等，还需要对s1和s2的名字进行比较。
      compare = taskToWeightRatio1.compareTo(taskToWeightRatio2)
    }
    if (compare < 0) {
      true
    } else if (compare > 0) {
      false
    } else {
      // 如果s1的名字小于s2的名字，则优先调度s1，否则优先调度s2。
      s1.name < s2.name
    }
  }
}

初始化

rootPool的初始化是在TaskSchedulerImpl中的initialize初始化中完成的，主要是以下步骤：

创建rootPool，传入参数，其中schedulingMode调度模式，是我们可以通过添加spark参数spark.scheduler.mode进行配置，默认为FIFO；
根据调度匹配，获得对应的schedulableBuilder，正如设计模式中建造者模式一样，schedulableBuilder的作用是创建好池塘后，池内是空的，需要建造者去创建池中的内容；
调用schedulableBuilder的buildPools方法。

def initialize(backend: SchedulerBackend) {
  this.backend = backend 
  // 创建根调度池
  rootPool = new Pool("", schedulingMode, 0, 0)
  // 根据调度模式，创建相应的调度池构建器，默认为FIFOSchedulableBuilder
  schedulableBuilder = {
    schedulingMode match {
      case SchedulingMode.FIFO =>
      new FIFOSchedulableBuilder(rootPool)
      case SchedulingMode.FAIR =>
      new FairSchedulableBuilder(rootPool, conf)
      case _ =>
      throw new IllegalArgumentException(s"Unsupported spark.scheduler.mode: $schedulingMode")
    }
  }
  // 构建调度池
  schedulableBuilder.buildPools()
}

调度器创建者

上面我们介绍了调度池，创建好池塘后，池内是空的，需要建造者去创建池中的“内容”，该部分是由schedulableBuilder来做的，它是一个Trait，定义了三个方法：

rootPool：获取根调度池；
buildPools：构建调度池；
addTaskSetManager：向调度池内添加TaskSetManager。

private[spark] trait SchedulableBuilder {
  // 返回根调度池
  def rootPool: Pool 
  // 对调度池进行构建
  def buildPools(): Unit 
  // 向调度池内添加TaskSetManager
  def addTaskSetManager(manager: Schedulable, properties: Properties): Unit
}

调度器创建者的初始化是在TaskSchedulerImpl中进行，根据不同的schedulingMode[可以通过参数spark.scheduler.mode来进行配置]进行调度器的选择，主要工作是将TaskSetManager添加到Pool中，源码如下：

// 调度模式。此属性依据schedulingModeConf获取枚举类型SchedulingMode的具体值。共有FAIR、FIFO、NONE三种枚举值。
val schedulingMode: SchedulingMode = try {
  // 由spark.scheduler.mode参数决定
  SchedulingMode.withName(schedulingModeConf.toUpperCase)
} catch {
  case e: java.util.NoSuchElementException =>
  throw new SparkException(s"Unrecognized spark.scheduler.mode: $schedulingModeConf")
}

def initialize(backend: SchedulerBackend) {
  this.backend = backend 
  // 创建根调度池
  rootPool = new Pool("", schedulingMode, 0, 0)
  // 根据调度模式，创建相应的调度池构建器，默认为FIFOSchedulableBuilder
  schedulableBuilder = {
    schedulingMode match {
      case SchedulingMode.FIFO =>
      new FIFOSchedulableBuilder(rootPool)
      case SchedulingMode.FAIR =>
      new FairSchedulableBuilder(rootPool, conf)
      case _ =>
      throw new IllegalArgumentException(s"Unsupported spark.scheduler.mode: $schedulingMode")
    }
  }
  // 构建调度池
  schedulableBuilder.buildPools()
}

FIFO调度器

Spark中默认的调度器是FIFO，即谁先提交谁先执行，

buildPools方法什么都不用做；
addTaskSetManager方法向rootPool中添加了TaskSetManager，会添加到rootPool维护的队列的尾部，获取则是从头部获取。

override def buildPools() {
  // nothing
}

override def addTaskSetManager(manager: Schedulable, properties: Properties) {
  // 直接向根调度池添加TaskSetManager
  rootPool.addSchedulable(manager)
}

所以我们可以看出来FIFO比较简单，结构可以如上图所示，但是想象这样子一种场景，用户A的作业很大，需要处理上T的数据，且SQL也非常复杂，而用户B的作业很简单，可能只是select查看前面几条数据而已。由于用户A,B都在同一个SparkSession里，所以其调度完全由Spark决定；如果按FIFO的原则，可能用户B要等好一会，才能从用户A的牙缝里扣出一点计算资源完成自己的这个作业，这样对用户B就不是那么友好了。

FAIR调度器

FAIR调度队列相比FIFO较复杂，支持在调度池中再进行分组，可以有不同的权重，根据权重、资源等来决定谁先执行。其可存在多个调度队列，且队列呈树型结构，现阶段Spark的Fair调度只支持两层树结构。每个队列中还可指定自己内部的调度策略，且Fair还存在一些特殊的属性：minShare：最少资源保证量，当一个队列最少资源未满足时，它将优先于其它同级队列获取资源。weight: 在一个队列内部分配资源时，默认情况下，采用公平轮询的方法将资源分配给各个应用程序，而该参数则将打破这种平衡。例如，如果用户配置一个指定调度池权重为2，那么这个调度池将会获得相对于权重为1的调度池2倍的资源。

构建池子

FairSchedulableBuilder读取用户指定的参数spark.scheduler.allocation.file对应的文件，如果没有指定该文件，则默认加载默认路径的配置文件：$SPARK_HOME/CONF/fairscheduler.xml。文件内容模板如下:

<allocations>
  <pool name="production">
    <schedulingMode>FAIRschedulingMode>
    <weight>1weight>
    <minShare>2minShare>
  pool>
  <pool name="test">
    <schedulingMode>FIFOschedulingMode>
    <weight>2weight>
    <minShare>3minShare>
  pool>
allocations>

可以看出来有以下几个变量，其中：

name调度池名字，可在程序中根据spark.scheduler.pool来指定使用某个调度池，未指定则使用名字为default的调度池；
schedulingMode调度模式，可以选择FIFO或者是FAIR；
weight权重[weight为2的分配到的资源为weight为1的两倍]，如果设置比较大，该调度池一有任务就会马上运行，默认为1;
minShare调度池所需最小资源数（cores），默认为0。

我们接下来来看下如何构建池子的：

首先读取上面说的公平调度的配置文件；
根据文件中的配置的每一项...，解析出name，schdulingMode，weight，minShare等属性构建相应的pool，加入到rootPool中；
最后构建defaultPool加入到rootPool中，用于无法获取指定的pool时候的池子。

// 构建公平调度池
override def buildPools() {
  var is: Option[InputStream] = None
  try {
    is = Option {
      schedulerAllocFile.map { f => // 从文件系统中读取公平调度配置的文件输入流
        new FileInputStream(f)
      }.getOrElse { // 或者获取fairscheduler.xml文件的输入流
        Utils.getSparkClassLoader.getResourceAsStream(DEFAULT_SCHEDULER_FILE)
      }
    }

    // 解析文件输入流并构建调度池
    is.foreach { i => buildFairSchedulerPool(i) }
  } finally {
    is.foreach(_.close())
  }

  // 构建默认的调度池
  buildDefaultPool()
}


// 默认的调度池名。常量DEFAULT_POOL_NAME的值固定为"default"。
val DEFAULT_POOL_NAME = "default"
// 默认的调度模式FIFO
val DEFAULT_SCHEDULING_MODE = SchedulingMode.FIFO
// 公平调度算法中Schedulable的minShare属性的默认值，固定为0。
val DEFAULT_MINIMUM_SHARE = 0
// 默认的权重，固定为1。
val DEFAULT_WEIGHT = 1
// 当根调度池及其子调度池中不存在名为default的调度池时，构建默认调度池
private def buildDefaultPool() {
  if (rootPool.getSchedulableByName(DEFAULT_POOL_NAME) == null) {
    // 创建默认调度池
    val pool = new Pool(DEFAULT_POOL_NAME, DEFAULT_SCHEDULING_MODE,  DEFAULT_MINIMUM_SHARE, DEFAULT_WEIGHT)
    // 向根调度池的调度队列中添加默认的子调度池
    rootPool.addSchedulable(pool)
  }
}

// 对文件输入流进行解析并构建调度池
private def buildFairSchedulerPool(is: InputStream) {
  // 将文件输入流转换为XML
  val xml = XML.load(is)
  // 读取XML的每一个节点
  for (poolNode <- (xml \\ POOLS_PROPERTY)) {
    // 读取的name属性作为调度池的名称
    val poolName = (poolNode \ POOL_NAME_PROPERTY).text
    var schedulingMode = DEFAULT_SCHEDULING_MODE
    var minShare = DEFAULT_MINIMUM_SHARE
    var weight = DEFAULT_WEIGHT

    val xmlSchedulingMode = (poolNode \ SCHEDULING_MODE_PROPERTY).text
    if (xmlSchedulingMode != "") {
      try {
        // 读取的子节点的值作为调度池的调度模式属性
        schedulingMode = SchedulingMode.withName(xmlSchedulingMode)
      } catch {
        case e: NoSuchElementException => ...
      }
    }

    // 读取的子节点的值作为调度池的minShare属性
    val xmlMinShare = (poolNode \ MINIMUM_SHARES_PROPERTY).text
    if (xmlMinShare != "") {
      minShare = xmlMinShare.toInt
    }

    // 读取的子节点的值作为调度池的权重（weight）属性
    val xmlWeight = (poolNode \ WEIGHT_PROPERTY).text
    if (xmlWeight != "") {
      weight = xmlWeight.toInt
    }

    // 创建子调度池
    val pool = new Pool(poolName, schedulingMode, minShare, weight)
    // 将创建的子调度池添加到根调度池的调度队列
    rootPool.addSchedulable(pool)
  }
}

构建完池子后，我们可以得到一个两级树结构的Pool，第一级rootPool负责的队列是各个指定的池子，而第二级池子中的队列中则是加入的任务集，这个是根据properties来指定的具体的加入哪个父Pool，如下所示:

加入任务集

添加一个TaskSetMagager的时候对于FAIR，会先根据任务集指定的properties信息，得到spark.scheduler.pool信息，获取相应名字的队列，如果没有则使用默认的队列，然后将任务集加入到相应的队列中去。

override def addTaskSetManager(manager: Schedulable, properties: Properties) {
  var poolName = DEFAULT_POOL_NAME
  // 以默认调度池作为TaskSetManager的父调度池
  var parentPool = rootPool.getSchedulableByName(poolName)
  // 判断默认调度池是否存在
  if (properties != null) { // 指定了配置信息
    // 以spark.scheduler.pool属性指定的调度池作为TaskSetManager的父调度池，如果没有指定则默认为"default"调度池
    poolName = properties.getProperty(FAIR_SCHEDULER_PROPERTIES, DEFAULT_POOL_NAME)
    // 获取poolName指定的父调度池
    parentPool = rootPool.getSchedulableByName(poolName)

    if (parentPool == null) { // 指定的父调度池不存在
      // 创建新的父调度池
      parentPool = new Pool(poolName, DEFAULT_SCHEDULING_MODE, DEFAULT_MINIMUM_SHARE, DEFAULT_WEIGHT)
      // 将父调度池添加到根调度池中
      rootPool.addSchedulable(parentPool)
    }
  }

  // 将TaskSetManager放入指定的父调度池
  parentPool.addSchedulable(manager)
}

资源管理&分配

上面我们讲了划分stage后，将一个stage的任务集加入到TaskSchedule中，当Spark申请来了资源时候，就可以进行任务的执行，会先通过上面讲到的调度器，选择合适调度策略下的任务集合，然后提交到Executor进行计算。

资源整理

整理所有可用资源

CoarseGrainedSchedulerBackend是TaskScheduler的内部变量，会在TaskSchduler启动时候也启动，CoarseGrainedSchedulerBackend内部会创建DriverEndPoint，负责Executor与Driver的通信，任务的提交进度更新等，在其onStart方法中存在一定时任务，每隔一定时间spark.scheduler.revive.interval[默认为1s]，进行一次调度，给自身发送ReviveOffers消息，进行调用makeOffers，查看是否有资源，然后进行资源分配给Task执行任务，代码如下所示：

// org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend
// 将DriverEndpoint注册到RpcEnv的Dispatcher时，会触发对DriverEndpoint的onStart方法的调用
override def onStart() {
  // 定时任务的执行间隔时间，可通过spark.scheduler.revive.interval属性配置，默认为1s。
  val reviveIntervalMs = conf.getTimeAsMs("spark.scheduler.revive.interval", "1s")
  // 向reviveThread提交了一个向DriverEndpoint自己发送ReviveOffers消息的定时任务
  reviveThread.scheduleAtFixedRate(new Runnable {
    override def run(): Unit = Utils.tryLogNonFatalError {
      // 向自己发送ReviveOffers消息
      Option(self).foreach(_.send(ReviveOffers))
    }
  }, 0, reviveIntervalMs, TimeUnit.MILLISECONDS)
}

接收到ReviveOffers消息后，进行资源整理，然后分配资源：

// org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend
// 接收消息并处理
override def receive: PartialFunction[Any, Unit] = {
  // 启动时DriverEndpoint会向自己发送ReviveOffers消息
  case ReviveOffers => // 调用makeOffers()方法
  makeOffers()
}

makeOffers的主要工作是找到目前活跃的所有executor，然后将executor配置成WorkerOffer包含executor的信息，然后启动任务：

private def makeOffers() {
  // 过滤出激活的Executor
  val activeExecutors = executorDataMap.filterKeys(executorIsAlive)
  // 根据每个激活的Executor的配置，创建WorkerOffer
  val workOffers = activeExecutors.map { case (id, executorData) =>
    new WorkerOffer(id, executorData.executorHost, executorData.freeCores)
  }.toIndexedSeq
  // 调用TaskSchedulerImpl的resourceOffers()方法给Task分配资源，调用launchTasks()方法运行Task。
  launchTasks(scheduler.resourceOffers(workOffers))
}

整理单个Executor可用资源

当Executor执行完成已分配任务时，此时改Executor有可用的空闲core，它会向Driver发送StatusUpdate消息，Driver接收到消息后会调用makeOffers(executorId)方法，为该Executor调度任务执行。

// org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend
// 接收消息并处理
override def receive: PartialFunction[Any, Unit] = { 
	// Task在运行的过程中，会向DriverEndpoint发送StatusUpdate消息，
  // 让Driver知道Task的当前状态，从而执行更新度量、将Task释放的资源分配给其他Task等操作。
  case StatusUpdate(executorId, taskId, state, data) =>
  // 调用TaskSchedulerImpl的statusUpdate方法更新Task的状态
  scheduler.statusUpdate(taskId, state, data.value)
  if (TaskState.isFinished(state)) { // Task的状态为已完成
    executorDataMap.get(executorId) match {
      case Some(executorInfo) =>
      // 将Task释放的内核数增加到对应Executor的空闲内核数
      executorInfo.freeCores += scheduler.CPUS_PER_TASK
      // 给下一个要调度的Task分配资源并运行Task
      makeOffers(executorId)
      case None => // 对于未知的Executor，DriverEndpoint选择忽略]
    }
  }
}

private def makeOffers(executorId: String) {
  // 先判断Executor是否是激活的
  if (executorIsAlive(executorId)) {
    // 获取对应的ExecutorData对象
    val executorData = executorDataMap(executorId)
    // 创建WorkerOffer样例类对象
    val workOffers = IndexedSeq(
      new WorkerOffer(executorId, executorData.executorHost, executorData.freeCores))
    // 分配资源并运行Task
    launchTasks(scheduler.resourceOffers(workOffers))
  }
}

加入任务集时候申请资源

当TaskSchedulerImpl提交任务后，会调用CoarseGrainedSchedulerBackend的reviveOffers来进行申请资源，主要是发送ReviveOffers给DriverEndPoint，跟DriverEndPoint的定时任务是一样的逻辑，这属于任务自身发出来的资源请求。

// org.apache.spark.scheduler.TaskSchedulerImpl
override def submitTasks(taskSet: TaskSet) {
  ....
  // 给Task分配资源并运行Task
  backend.reviveOffers()
}

// org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend
override def reviveOffers() {
  // 向DriverEndpoint发送ReviveOffers消息
  driverEndpoint.send(ReviveOffers)
}

资源分配

资源整理完，就会进行分配资源给Task，来触发任务提交执行，首先会调用TaskSchedulerImpl的resourceOffers方法，方法中会依照调度策略选出要执行的TaskSetManager，然后TaskSetManager内部根据基于本地性的延迟调度策略取出适合的Task交由Executor执行，我们来看下具体是如何执行的。

resourceOffers

resourceOffers方法负责进行资源分配，步骤如下:

遍历所有可用的资源WorkerOffer，更新记录以下几个映射关系:host与executor的映射关系；标记添加了新的executor；更新host与机架之间的关系；
对可用的executors进行shuffle分散，避免将task放在同一个worker上，进行负载均衡；
根据每个WorkerOffer的可用的cpu核数创建同等尺寸的TaskDescription数组，所以可以看出来每个CPU Core只供给一个Task使用；
将每个WorkerOffer的可用的cpu核数统计到availableCpus数组中；
按照调度算法排序，从调度池中获取排序的taskSetManager列表；
遍历TaskSetManager，从最快的本地化级别开始，调用resourceOfferSingleTaskSet方法，给每个TaskSetManager中Task进行分配资源；
如果在所有TaskSet所允许的本地级别下，TaskSet中没有任何一个Task成功启动，调用TaskSetManager的abortIfCompletelyBlacklisted方法，将其添加到黑名单，放弃该Task；
返回已经获得资源的task列表；

// org.apache.spark.scheduler.TaskSchedulerImpl
// 用于给Task分配资源 
def resourceOffers(offers: IndexedSeq[WorkerOffer]): Seq[Seq[TaskDescription]] = synchronized {  
  var newExecAvail = false
  // 遍历WorkerOffer序列，资源添加到记录中:hostToExecutors,hostsByRack
  for (o <- offers) {  
    if (!hostToExecutors.contains(o.host)) {  // 先将资源中的主机记录更新到hostToExecutors字典中
      hostToExecutors(o.host) = new HashSet[String]()
    }
    // 更新Host与Executor的各种映射关系
    if (!executorIdToRunningTaskIds.contains(o.executorId)) { // 说明Executor是新添加的
      hostToExecutors(o.host) += o.executorId
      // 向DAGScheduler的DAGSchedulerEventProcessLoop投递ExecutorAdded事件,告知有新的Executor添加了 
      executorAdded(o.executorId, o.host)
      executorIdToHost(o.executorId) = o.host
      executorIdToRunningTaskIds(o.executorId) = HashSet[Long]()
      newExecAvail = true // 标记添加了新的Executor，加入了新的Executor，则可以对数据来源进行调整利用本地性优势
    }
    for (rack <- getRackForHost(o.host)) {  // 更新Host与机架之间的关系
      hostsByRack.getOrElseUpdate(rack, new HashSet[String]()) += o.host
    }
  }

  // 随机洗牌，避免将任务总是分配给同样一组Worker
  val shuffledOffers = Random.shuffle(offers) 
  // 根据每个WorkerOffer的可用的CPU核数创建同等尺寸的TaskDescription数组,
  // 从这里可以看出，每个CPU Core只供给一个Task使用
  val tasks = shuffledOffers.map(o => new ArrayBuffer[TaskDescription](o.cores))
  // 统计每个Worker的可用的CPU核数
  val availableCpus = shuffledOffers.map(o => o.cores).toArray
  
  // 对rootPool中所有TaskSetManager按照调度算法排序  ArrayBuffer[TaskSetManager]
  val sortedTaskSets = rootPool.getSortedTaskSetQueue

  // 遍历所有的TaskSetManager，如果有新的Executor添加就告诉它们，它们会重新计算支持的本地性级别。
  for (taskSet <- sortedTaskSets) { 
    if (newExecAvail) { // 通知有新的Executor添加了，以触发TaskSetManager重新计算TaskSet的本地性
      taskSet.executorAdded()
    }
  }

  // 遍历TaskSetManager，在单个TaskSetManager中，按照最大本地性的原则（即从高本地性级别到低本地性级别）
  // 调用resourceOfferSingleTaskSet()方法，给单个TaskSet中的Task提供资源
  for (taskSet <- sortedTaskSets) { // 循环根据调度算法排好序的待执行Task
    var launchedAnyTask = false
    var launchedTaskAtCurrentMaxLocality = false
    // 对单个TaskSetManager，遍历它所支持的的本地化级别，按照最大本地性的原则，给Task提供资源
    for (currentMaxLocality <- taskSet.myLocalityLevels) {
      do {
        // 调用resourceOfferSingleTaskSet()方法为单个TaskSetManager分配资源，
        // 最终分配到资源的Task对应的TaskDescription会被放入到tasks数组中， 返回值表示是否有Task被分配了资源
        launchedTaskAtCurrentMaxLocality = resourceOfferSingleTaskSet(
          	taskSet, currentMaxLocality, shuffledOffers, availableCpus, tasks)
        launchedAnyTask |= launchedTaskAtCurrentMaxLocality
      } while (launchedTaskAtCurrentMaxLocality)
    }
    // 如果在任何TaskSet所允许的本地性级别下，TaskSet中没有任何一个任务获得了资源
    if (!launchedAnyTask) {
      // 调用TaskSetManager的abortIfCompletelyBlacklisted方法，放弃在黑名单中的Task。
      taskSet.abortIfCompletelyBlacklisted(hostToExecutors)
    }
  }

  if (tasks.size > 0) {
    hasLaunchedTask = true
  }
  // 返回已经获得了资源的TaskDescription列表
  return tasks
}

resourceOfferSingleTaskSet

resourceOfferSingleTaskSet是针对某个TaskSetManager在maxLocality的限制条件下，选取可以在空闲资源上面启动的任务，具体实现：

遍历WorkerOffer，如果当前executor的cpu数大于每个task所使用的cpu数量，则可以选择在该executor上启动task；
然后调用TaskSetManager的resourceOffer方法，在当前executor上，使用这次本地化级别，查看那些task可用启动；
最后遍历完所有资源，返回满足任务本地性要求下的可以在空闲资源上启动的任务集合。

private def resourceOfferSingleTaskSet(taskSet: TaskSetManager, maxLocality: TaskLocality, 
                                       shuffledOffers: Seq[WorkerOffer],
                                       availableCpus: Array[Int],
                                       tasks:IndexedSeq[ArrayBuffer[TaskDescription]]) : Boolean = {
  var launchedTask = false
  // 将遍历WorkerOffer序列，每个WorkerOffer表示一个可供调度的Executor
  for (i <- 0 until shuffledOffers.size) {
    // 获取WorkerOffer的Executor的身份标识
    val execId = shuffledOffers(i).executorId
    // 获取WorkerOffer的Host
    val host = shuffledOffers(i).host

    // WorkerOffer的可用的CPU核数大于等于CPUS_PER_TASK才可以继续分配，
    // CPUS_PER_TASK由spark.task.cpus参数配置，默认为1。
    if (availableCpus(i) >= CPUS_PER_TASK) {
      try {
        // 给符合条件的待处理Task创建TaskDescription
        for (task <- taskSet.resourceOffer(execId, host, maxLocality)) {
          tasks(i) += task  // 将TaskDescription添加到tasks数组
          // 更新Task的身份标识与TaskSet、Executor的身份标识相关的缓存映
          val tid = task.taskId
          taskIdToTaskSetManager(tid) = taskSet
          taskIdToExecutorId(tid) = execId
          executorIdToRunningTaskIds(execId).add(tid)
          // 由于给Task分配了CPUS_PER_TASK指定数量的CPU内核数，因此WorkerOffer的可用的CPU核数减去CPUS_PER_TASK
          availableCpus(i) -= CPUS_PER_TASK
          // 防止CPU Core超额分配
          assert(availableCpus(i) >= 0)
          launchedTask = true
        }
      } catch {
        case e: TaskNotSerializableException =>
        return launchedTask
      }
    }
  }
  // 返回launchedTask，即是否已经给TaskSet中的某个Task分配到了资源
  return launchedTask
}

lauchTasks

通过上述资源分配可以获取到各个资源上能运行的任务，然后调用launchTasks执行真正的任务启动工作，步骤如下:

对于每个可以运行的任务，先进性序列化，如果序列化大小过大，放弃对TaskSetManager的调度；
序列化大小满足系统要求，则获取任务需要运行的executor的信息，然后对其freeCores进行删减，然后向相应的CoarseGrainedExecutorBackend发送LaunchTask消息，等到相应Executor接到消息后就可以进行启动Task。

// 运行Task
private def launchTasks(tasks: Seq[Seq[TaskDescription]]) {
  for (task <- tasks.flatten) {
    val serializedTask = ser.serialize(task)  // 对TaskDescription进行序列化
    if (serializedTask.limit >= maxRpcMessageSize) { // 序列化后的大小超出了Rpc消息的限制
      // 从TaskSchedulerImpl的taskIdToTaskSetManager中找出Task对应的TaskSetManager
      scheduler.taskIdToTaskSetManager.get(task.taskId).foreach { taskSetMgr =>
        try {
          var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " +
          "spark.rpc.message.maxSize (%d bytes). Consider increasing " +
          "spark.rpc.message.maxSize or using broadcast variables for large values."
          msg = msg.format(task.taskId, task.index, serializedTask.limit, maxRpcMessageSize)
          // 放弃对TaskSetManager的调度
          taskSetMgr.abort(msg)
        } catch {
          case e: Exception => logError("Exception in error callback", e)
        }
      }
    } else { // 序列化后的TaskDescription的大小小于RPC消息大小的最大值maxRpcMessageSize
      val executorData = executorDataMap(task.executorId)
      // 减少Executor的空闲内核数freeCores
      executorData.freeCores -= scheduler.CPUS_PER_TASK 
      
      // 向CoarseGrainedExecutorBackend发送LaunchTask消息。
      // CoarseGrainedExecutorBackend将在收到LaunchTask消息后运行Task。
      executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))
    }
  }
}

总结

最后我们来总结下一个Stage任务集提交到分配到资源的整个过程：

构建任务集: DAGScheduler中在stage提交时候会对任务集进行构建，获取偏好位置等信息，然后提交给TaskSchedulerImpl；
任务调度：任务调度分为两个层次，同一时间中不同stage的调度顺序，同一TaskSet中不同任务的调度顺序
1. 不同stage的调度是通过FIFO或者FAIR的调度方式进行调度排序；
2. 同一TaskSet中的任务则是通过基于任务本地性的延迟调度策略进行调度，这个后面TaskSetManager中会详细讲解。
资源整理分配：资源分配分为三种不同的整理分配方式
1. DriverEndPoint内部会有一个定时任务，定时进行资源整理分配给任务集合执行；
2. TaskSchduler加入任务后，由于想要让其快速执行，会通过SchduleBackend主动向DriverEndPoint发送消息，进行资源请求；
3. 当某个Task任务结束时候，改executor有资源剩余，可以主动进行单个executor资源整理与分配。

好了，本节就到这里，下一节我们看下后续任务是如何执行以及结果回传处理的。

参考

https://blog.csdn.net/dabokele/article/details/51526048
https://www.cnblogs.com/itboys/p/11114457.html
http://www.louisvv.com/archives/1836.html
https://cloud.tencent.com/developer/article/1198471
https://ieevee.com/tech/2016/07/11/spark-scheduler.html

你可能感兴趣的:(Spark,大数据,spark)

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
大数据毕设图像识别-人脸识别与疲劳检测 - python opencv fawubio_A python 算法
文章目录0前言1课题背景2Dlib人脸识别2.1简介2.2Dlib优点2.3相关代码2.4人脸数据库2.5人脸录入加识别效果3疲劳检测算法3.1眼睛检测算法3.2打哈欠检测算法3.3点头检测算法4PyQt54.1简介4.2相关界面代码0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师
大数据开发（Hive面试真题-卷二） Key-Key 大数据 hive 面试
大数据开发（Hive面试真题）1、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？2、说下Hive是什么？跟数据仓库区别？3、Hive架构？4、Hive数据倾斜以及解决方案？5、Hive如果不用参数调优，在map和reduce端应该做什么？6、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？7、Hive分区和分桶的区别？8、Hive的执行流程？9、Hive
【大数据面试题】014 Flink CDC 用过吗，请简要描述 Jiweilai1 一天一道面试题 flink 大数据面试 flink cdc
一步一个脚印，一天一道面试题。FlinkCDC的诞生背景FlinkCDC的全称是ChangeDataCapture（变更数据捕获）每一项技术的诞生都是为了解决某个问题，某个痛点。而FlinkCDC的诞生就是为了解决在读取，监控MySQL这样的数据库时，不会因为读取数据库，对数据库本身造成压力，影响性能。同时，保证了数据源的准确，正确。FlinkCDC原理方式一：通过查询来获取更新的数据。如查询数据
【大数据】Flink SQL 语法篇（五）：Regular Join、Interval Join G皮T #Flink SQL 大数据 flink sql Regular Join Interval Join 双流Join
《FlinkSQL语法篇》系列，共包含以下10篇文章：FlinkSQL语法篇（一）：CREATEFlinkSQL语法篇（二）：WITH、SELECT&WHERE、SELECTDISTINCTFlinkSQL语法篇（三）：窗口聚合（TUMBLE、HOP、SESSION、CUMULATE）FlinkSQL语法篇（四）：Group聚合、Over聚合FlinkSQL语法篇（五）：RegularJoin、I
有一点动心段duan
《有一点动心》是6月4日新上映的一部影片，在香山国际影城的支持下，与水姐观影群的伙伴们共同观看了这部影片。随着社会意识形态的不断变化，人们对感情的态度，也呈现出多元化的状态。爱情，自从人类诞生之日起，不论朝代如何更替变迁，都是生命的一大核心主题，演绎出无数个动人的故事，让经历者体验其中，让倾听者无比动容。从调查出来的大数据来看，适龄人群的不婚比例，是空前高的一个数字，越来越多的适婚人士，加入了不婚
Spark Q&A 耐心的农夫2020
Q:在读取文件的时候，如何忽略空gzip文件?A:从Spark2.1开始，你可以通过启用spark.sql.files.ignoreCorruptFiles选项来忽略损毁的文件。可以将下面的选项添加到你的spark-submit或者pyspark命令中。--confspark.sql.files.ignoreCorruptFiles=true另外spark支持的选项可以通过在spark-shell
大数据开发（Kafka面试真题-卷一） Key-Key 大数据 kafka 面试
大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？3、解释以下ApacheKafka的作用以及它与常见消息队列系统（如RabbitMQ）之间的区别？4、如何使用ApacheKafka来实现实时数据流处理？5、Flinkcheckpoint和Kafkaoffset的关联是什么？
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
挑战杯大数据商城人流数据分析与可视化 - python 大数据分析 laafeer python
0前言优质竞赛项目系列，今天要分享的是基于大数据的基站数据分析与可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate课题背景随着当今个人手机终端的普及，出行群体中手机拥有率和使用率已达到相当高的比例，手
Java开发从入门到精通（七）：Java的面向对象编程OOP：常用API HACKNOE Java开发从入门到精通 java intellij-idea
Java大数据开发和安全开发（一）Java的常用API1.1Object类1.1toString1.1equals方法1.1对象克隆clone1.1Objects类1.1包装类1.1StringBuilder1.1StringBuffer1.1StringJoiner1.1Math、System、Runtime1.1BigDecimal1.1传统时间：Date日期类、SimpleDateForma
linux安装单机版spark3.5.0 爱上雪茄大数据 JAVA知识 spark 大数据分布式
一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0三、spark环境变量配置exportJAVA_HOME=/usr/local/jdk1.8.0_391exportJRE_HOME=/usr/local/jdk1.8.0_391/jr
Hadoop简介程序员小郭同学 hadoop
简介大数据简介概述大数据的说法从出现到现在，也经历了十多年时间的发展。而在这十几年的发展过程中，非常多的机构、组织都试图对大数据做出过定义，例如：研究机构Gartner给出了这样的定义："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
数大数据时代的关键：融合数据治理与AI为企业增值_光点科技光点数据治理人工智能大数据科技
在数据驱动的今天，企业不能再将数据治理和人工智能（AI）视作孤立的实体。它们之间的协同作用已经成为推动企业增长的强大引擎。本文将探索数据治理与AI如何相互作用，形成闭环，以及企业如何利用这一关系来提升数据价值，实现数字化转型。数据治理与AI的依存共生数据治理是整理和优化数据的过程，以确保其质量、安全性和可用性。而AI，尤其是大模型，是解析和应用这些数据的工具。没有高质量的数据治理，AI无法发挥其最
2024年阿里云大数据acp认证条件腾科教育阿里云大数据云计算
阿里云大数据acp认证考试没有条件，在校大学生、应届毕业生、在职员工均可报考。acp认证考试预约流程1.账户注册，认证人员登录阿里云认证全球培训中心网站，在页面右上角点击“立即注册”2.选择专业。账户注册成功会自动返回到网站首页，认证人员根据实际需要进行报考，3,认证购买。进入专业介绍页后点击“购买认证"跳转到认证购买页，点击对应专业认证名称再点击“立即购买”，确认订单后完成支付即可。4.考试预约
Redis 的 RDB 和 AOF 龙大. Redis redis 数据库
1.RDB(RedisDatabase)定义:RDB是Redis的持久化机制之一，它会在指定的时间间隔内生成数据集的时间点快照。工作原理:当RDB持久化被触发时，Redis会创建一个子进程来执行实际的数据保存工作，父进程则继续处理客户端请求。子进程将内存中的数据写入到一个临时RDB文件中，完成后替换旧的RDB文件。优点:快速恢复大数据集。子进程创建的方式减少了主进程的内存消耗。RDB文件是一个紧凑
挑战杯机器学习股票大数据量化分析与预测系统 - python 挑战杯 laafeer python
文章目录0前言1课题背景2实现效果UI界面设计web预测界面RSRS选股界面3软件架构4工具介绍Flask框架MySQL数据库LSTM5最后0前言优质竞赛项目系列，今天要分享的是机器学习股票大数据量化分析与预测系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com
03hive数仓安装与基础使用 daydayup9527 hadoop_hive 运维 hadoop
hiveHive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，本质上还是一个文件底层是将sql语句转换为MapReduce任务进行运行本质上是一种大数据离线分析工具学习成本相当低，不用开发复杂的mapreduce应用，十分适合数据仓库的统计分析hive可以用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在hadoop
Spark的数据结构——RDD bluedraam_pp Spark spark 数据结构大数据
RDD的5个特征下面来说一下RDD这东西，它是ResilientDistributedDatasets的简写。咱们来看看RDD在源码的解释。Alistofpartitions:在大数据领域，大数据都是分割成若干个部分，放到多个服务器上，这样就能做到多线程的处理数据，这对处理大数据量是非常重要的。分区意味着，可以使用多个线程了处理。Afunctionforcomputingeachsplit：作用在
Hbase集群搭建超详细教程笑看风云路集群搭建系列 hbase hbase hadoop 大数据
Hbase集群搭建前言详细步骤1、下载安装包2、解压3、修改配置文件3.1修改hbase-env.sh文件3.2修改hbase-site.xml3.3修改regionservers文件4、分发hbase目录5、启动HBase集群6、查看HBaseWebUI大家好，我是风云，欢迎大家关注我的博客，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！前言HBase是一个开源的、
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen