顧棟

【Spark源码分析】事件总线机制分析

Spark事件总线机制

采用Spark2.11源码，以下类或方法被@DeveloperApi注解额部分，可能出现不同版本不同实现的情况。

Spark中的事件总线用于接受事件并提交到对应的监听器中。事件总线在Spark应用启动时，会在SparkContext中激活spark运行的事件总线（LiveListenerBus）。

LiveListenerBus相关的部分类图如下：

由于Spark使用scala语言编写的，所以在类图上的接口代表的是Traits类的接口功能。

继承

实现

聚合

继承

实现

SparkContext

«interface»

SparkListenerEvent

«interface»

SparkListenerInterface

«interface»

SparkListenerBus

«interface»

ListenerBus

LiveListenerBus

AsyncEventQueue

AppStatusListener

ExecutorAllocationListener

«Abstract»

SparkListener

SparkListener相关事件

EventLoggingListener

主体逻辑

启动应用的时候，在SparkConext中对LiveListenerBus进行实例化，除了内部的监听器，还将注册在 spark.extraListeners配置项中指定的监听器，然后启动监听器总线。

在LiveListenerBus中使用AsyncEventQueue作为核心，实现将事件异步的分发给已经注册的SparkListener监听器们。其中AsyncEventQueue有4类：

LiveListenerBus将AsyncEventQueue分为4类，不同的事件分发给各自独立的线程进行处理，防止在监听器和事件较多的时候造成积压问题。

eventLog：日志事件队列
executorManagement：执行器管理队列
appStatus：应用程序状态队列
shared：非内部监听器共享的队列

在AsyncEventQueue内部采用LinkedBlockingQueue来存储事件，并启动一个常住线程（dispatchThread）进行事件的转发。

LiveListenerBus

AsyncEventQueue-eventLog

AsyncEventQueue-executorManagement

AsyncEventQueue-appStatus

AsyncEventQueue-shared

addToQueue

start

stop

eventQueue

event4-1

event4-2

listeners

listener4类

listener8类

dispatchThread

eventQueue

event3-1

event3-2

listeners

listener3类

listener7类

dispatchThread

eventQueue

event2-1

event2-2

listeners

listener2类

listener6类

dispatchThread

eventQueue

event1-1

event1-2

listeners

listener1类

listener5类

dispatchThread

events发生源1

listener1

events发生源2

listener2

events发生源3

listener3

events发生源4

listener4

代码详解

`org.apache.spark.util.ListenerBus` Traits类

scala中的Traits类，类似Java中的接口类。与接口相同的部分是可以定义抽象的方法和成员，不用的部分是可以包含具体的方法可以成员。

package org.apache.spark.util

import java.util.concurrent.CopyOnWriteArrayList

import scala.collection.JavaConverters._
import scala.reflect.ClassTag
import scala.util.control.NonFatal

import com.codahale.metrics.Timer

import org.apache.spark.internal.Logging

/**
 * 事件总线的基类。用来转发事件到对应的事件监听器
 */
// [ L<:AnyRef]指的是泛型，<:符号是泛型的上限。private[spark]代表作用域，只对spark目录下可见
private[spark] trait ListenerBus[L <: AnyRef, E] extends Logging {

  // (L, Option[Timer])采用的元组式集合
  private[this] val listenersPlusTimers = new CopyOnWriteArrayList[(L, Option[Timer])]

  // Marked `private[spark]` for access in tests.
  private[spark] def listeners = listenersPlusTimers.asScala.map(_._1).asJava

  protected def getTimer(listener: L): Option[Timer] = None

  /**
   * 添加监听器来监听事件。 该方法是线程安全的，可以在任何线程中调用。
   */
  final def addListener(listener: L): Unit = {
    listenersPlusTimers.add((listener, getTimer(listener)))
  }

  /**
   * 移除监听器，它将不会接收任何事件。 该方法是线程安全的，可以在任何线程中调用。
   */
  final def removeListener(listener: L): Unit = {
    listenersPlusTimers.asScala.find(_._1 eq listener).foreach { listenerAndTimer =>
      listenersPlusTimers.remove(listenerAndTimer)
    }
  }

  /**
   * 如果删除侦听器时需要进行任何额外的清理，则可以由子类覆盖它。 特别是AsyncEventQueue可以清理LiveListenerBus中的队列。
   */
  def removeListenerOnError(listener: L): Unit = {
    removeListener(listener)
  }


  /**
   * 将事件转发给所有注册的侦听器。 `postToAll` 调用者应该保证在同一线程中为所有事件调用 `postToAll`。
   */
  def postToAll(event: E): Unit = {
    val iter = listenersPlusTimers.iterator
    while (iter.hasNext) {
      val listenerAndMaybeTimer = iter.next()
      val listener = listenerAndMaybeTimer._1
      val maybeTimer = listenerAndMaybeTimer._2
      val maybeTimerContext = if (maybeTimer.isDefined) {
        maybeTimer.get.time()
      } else {
        null
      }
      try {
        doPostEvent(listener, event)
        if (Thread.interrupted()) {
          throw new InterruptedException()
        }
      } catch {
        case ie: InterruptedException =>
          logError(s"Interrupted while posting to ${Utils.getFormattedClassName(listener)}.  " +
            s"Removing that listener.", ie)
          removeListenerOnError(listener)
        case NonFatal(e) =>
          logError(s"Listener ${Utils.getFormattedClassName(listener)} threw an exception", e)
      } finally {
        if (maybeTimerContext != null) {
          maybeTimerContext.stop()
        }
      }
    }
  }

  /**
   * 将事件发布到指定的侦听器。 保证所有侦听器在同一线程中调用“onPostEvent”。
   */
  protected def doPostEvent(listener: L, event: E): Unit

  private[spark] def findListenersByClass[T <: L : ClassTag](): Seq[T] = {
    val c = implicitly[ClassTag[T]].runtimeClass
    listeners.asScala.filter(_.getClass == c).map(_.asInstanceOf[T]).toSeq
  }

}

`org.apache.spark.util.ListenerBus.SparkListenerBus`

package org.apache.spark.scheduler

import org.apache.spark.util.ListenerBus

/**
 * SparkListenerEvent事件总线继承ListenerBus类，将SparkListenerEvent事件转发到SparkListenerInterface中。
 * SparkListenerInterface是一个trait接口类，里面定义了一些关于spark应用运行周期中的一些事件监听器。
 * SparkListenerEvent是定义了一个事件的通用接口类，其他关于Spark应用运行周期过程中的事件均以 case class实现这个接口
 */
private[spark] trait SparkListenerBus
  extends ListenerBus[SparkListenerInterface, SparkListenerEvent] {

  // 监听器处理对不同的事件采用不用的处理
  protected override def doPostEvent(
      listener: SparkListenerInterface,
      event: SparkListenerEvent): Unit = {
    event match {
      case stageSubmitted: SparkListenerStageSubmitted =>
        listener.onStageSubmitted(stageSubmitted)
      case stageCompleted: SparkListenerStageCompleted =>
        listener.onStageCompleted(stageCompleted)
      case jobStart: SparkListenerJobStart =>
        listener.onJobStart(jobStart)
      case jobEnd: SparkListenerJobEnd =>
        listener.onJobEnd(jobEnd)
      case taskStart: SparkListenerTaskStart =>
        listener.onTaskStart(taskStart)
      case taskGettingResult: SparkListenerTaskGettingResult =>
        listener.onTaskGettingResult(taskGettingResult)
      case taskEnd: SparkListenerTaskEnd =>
        listener.onTaskEnd(taskEnd)
      case environmentUpdate: SparkListenerEnvironmentUpdate =>
        listener.onEnvironmentUpdate(environmentUpdate)
      case blockManagerAdded: SparkListenerBlockManagerAdded =>
        listener.onBlockManagerAdded(blockManagerAdded)
      case blockManagerRemoved: SparkListenerBlockManagerRemoved =>
        listener.onBlockManagerRemoved(blockManagerRemoved)
      case unpersistRDD: SparkListenerUnpersistRDD =>
        listener.onUnpersistRDD(unpersistRDD)
      case applicationStart: SparkListenerApplicationStart =>
        listener.onApplicationStart(applicationStart)
      case applicationEnd: SparkListenerApplicationEnd =>
        listener.onApplicationEnd(applicationEnd)
      case metricsUpdate: SparkListenerExecutorMetricsUpdate =>
        listener.onExecutorMetricsUpdate(metricsUpdate)
      case executorAdded: SparkListenerExecutorAdded =>
        listener.onExecutorAdded(executorAdded)
      case executorRemoved: SparkListenerExecutorRemoved =>
        listener.onExecutorRemoved(executorRemoved)
      case executorBlacklisted: SparkListenerExecutorBlacklisted =>
        listener.onExecutorBlacklisted(executorBlacklisted)
      case executorUnblacklisted: SparkListenerExecutorUnblacklisted =>
        listener.onExecutorUnblacklisted(executorUnblacklisted)
      case nodeBlacklisted: SparkListenerNodeBlacklisted =>
        listener.onNodeBlacklisted(nodeBlacklisted)
      case nodeUnblacklisted: SparkListenerNodeUnblacklisted =>
        listener.onNodeUnblacklisted(nodeUnblacklisted)
      case blockUpdated: SparkListenerBlockUpdated =>
        listener.onBlockUpdated(blockUpdated)
      case speculativeTaskSubmitted: SparkListenerSpeculativeTaskSubmitted =>
        listener.onSpeculativeTaskSubmitted(speculativeTaskSubmitted)
      case _ => listener.onOtherEvent(event)
    }
  }

}

SparkListener实现了接口SparkListenerInterface，是它的默认实现类。主要对所有的事件回调做了无操作实现。

事件的存储与转发队列

org.apache.spark.scheduler.AsyncEventQueue

package org.apache.spark.scheduler

import java.util.concurrent.LinkedBlockingQueue
import java.util.concurrent.atomic.{AtomicBoolean, AtomicLong}

import com.codahale.metrics.{Gauge, Timer}

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.internal.Logging
import org.apache.spark.internal.config._
import org.apache.spark.util.Utils

/**
 * 事件的异步队列。 发布到此队列的所有事件都将传递到单独线程中的子侦听器。
 *
 * 仅当调用 `start()` 方法时才会开始传递事件。 当不需要传递更多事件时，应该调用“stop()”方法。
 */
private class AsyncEventQueue(
    val name: String,
    conf: SparkConf,
    metrics: LiveListenerBusMetrics,
    bus: LiveListenerBus)
  extends SparkListenerBus
  with Logging {

  import AsyncEventQueue._

  // 维护了队列前文所述的继承自SparkListenerEvent的样例类事件，默认长度10000。
  private val eventQueue = new LinkedBlockingQueue[SparkListenerEvent](
    conf.get(LISTENER_BUS_EVENT_QUEUE_CAPACITY))

  // 代表未处理的事件个数，从eventQueue弹出的事件不保证处理结束了，所以采用一个单独的变量对事件进行计数
  private val eventCount = new AtomicLong()

  /**丢弃事件的计数器。 */
  private val droppedEventsCounter = new AtomicLong(0L)

  /** 上次记录“droppedEventsCounter”的时间（以毫秒为单位）。 */
  @volatile private var lastReportTimestamp = 0L

  private val logDroppedEvent = new AtomicBoolean(false)

  private var sc: SparkContext = null

  private val started = new AtomicBoolean(false)
  private val stopped = new AtomicBoolean(false)

  private val droppedEvents = metrics.metricRegistry.counter(s"queue.$name.numDroppedEvents")
  private val processingTime = metrics.metricRegistry.timer(s"queue.$name.listenerProcessingTime")

  // 首先删除队列大小计量器，以防它是由从侦听器总线中删除的该队列的先前版本创建的。
  metrics.metricRegistry.remove(s"queue.$name.size")
  metrics.metricRegistry.register(s"queue.$name.size", new Gauge[Int] {
    override def getValue: Int = eventQueue.size()
  })

  // 事件转发的常驻线程，不停的调用dispatch()进行事件转发
  private val dispatchThread = new Thread(s"spark-listener-group-$name") {
    setDaemon(true)
    override def run(): Unit = Utils.tryOrStopSparkContext(sc) {
      dispatch()
    }
  }

  private def dispatch(): Unit = LiveListenerBus.withinListenerThread.withValue(true) {
    var next: SparkListenerEvent = eventQueue.take()
    while (next != POISON_PILL) {
      val ctx = processingTime.time()
      try {
        // 通过事件总线将事件转发到所有的注册的监听器中。
        super.postToAll(next)
      } finally {
        ctx.stop()
      }
      eventCount.decrementAndGet()
      next = eventQueue.take()
    }
    eventCount.decrementAndGet()
  }

  override protected def getTimer(listener: SparkListenerInterface): Option[Timer] = {
    metrics.getTimerForListenerClass(listener.getClass.asSubclass(classOf[SparkListenerInterface]))
  }

  /**
   * 启动一个dispatchThread线程将事件分派给监听器。
   *
   * @param sc Used to stop the SparkContext in case the async dispatcher fails.
   */
  private[scheduler] def start(sc: SparkContext): Unit = {
    if (started.compareAndSet(false, true)) {
      this.sc = sc
      dispatchThread.start()
    } else {
      throw new IllegalStateException(s"$name already started!")
    }
  }

  /**
   * 停止监听器总线。 它将等待，直到处理完排队的事件，但新事件将被丢弃。
   * 插入POISON_PILL，dispatchThread线程读取到POISON_PIL时就会停止事件的分发
   */
  private[scheduler] def stop(): Unit = {
    if (!started.get()) {
      throw new IllegalStateException(s"Attempted to stop $name that has not yet started!")
    }
    if (stopped.compareAndSet(false, true)) {
      eventCount.incrementAndGet()
      eventQueue.put(POISON_PILL)
    }
    if (Thread.currentThread() != dispatchThread) {
      dispatchThread.join()
    }
  }

  // 向队列中添加事件，如果队列满了，丢弃当前事件并记录日志。这是个生产者消费者模型，当队列满时生产者丢弃事件，但队列为空时消费者等待生产者。
  def post(event: SparkListenerEvent): Unit = {
    if (stopped.get()) {
      return
    }

    eventCount.incrementAndGet()
    if (eventQueue.offer(event)) {
      return
    }
    // 向eventQueue添加事件失败后的逻辑
    eventCount.decrementAndGet()
    droppedEvents.inc()
    droppedEventsCounter.incrementAndGet()
    if (logDroppedEvent.compareAndSet(false, true)) {
      logError(s"Dropping event from queue $name. " +
        "This likely means one of the listeners is too slow and cannot keep up with " +
        "the rate at which tasks are being started by the scheduler.")
    }
    logTrace(s"Dropping event $event")

    val droppedCount = droppedEventsCounter.get
    if (droppedCount > 0) {
      // 为了控制日志的输出频率。采用1分钟输出一次。
      if (System.currentTimeMillis() - lastReportTimestamp >= 60 * 1000) {
        if (droppedEventsCounter.compareAndSet(droppedCount, 0)) {
          val prevLastReportTimestamp = lastReportTimestamp
          lastReportTimestamp = System.currentTimeMillis()
          val previous = new java.util.Date(prevLastReportTimestamp)
          logWarning(s"Dropped $droppedCount events from $name since $previous.")
        }
      }
    }
  }

  /**
   * For testing only. Wait until there are no more events in the queue.
   */
  def waitUntilEmpty(deadline: Long): Boolean = {
    while (eventCount.get() != 0) {
      if (System.currentTimeMillis > deadline) {
        return false
      }
      Thread.sleep(10)
    }
    true
  }

  override def removeListenerOnError(listener: SparkListenerInterface): Unit = {
    bus.removeListener(listener)
  }

}

private object AsyncEventQueue {

  val POISON_PILL = new SparkListenerEvent() { }

}

spark运行事件总线

org.apache.spark.scheduler.LiveListenerBus

package org.apache.spark.scheduler

import java.util.{List => JList}
import java.util.concurrent._
import java.util.concurrent.atomic.{AtomicBoolean, AtomicLong}

import scala.collection.JavaConverters._
import scala.collection.mutable
import scala.reflect.ClassTag
import scala.util.DynamicVariable

import com.codahale.metrics.{Counter, MetricRegistry, Timer}

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.internal.Logging
import org.apache.spark.internal.config._
import org.apache.spark.metrics.MetricsSystem
import org.apache.spark.metrics.source.Source

/**
 * SparkListenerEvent事件管理器
 * 将 SparkListenerEvents 异步传递给已注册的 SparkListener。
 *
 * 在调用`start()`之前，所有发布的事件都只会被缓冲。 只有在此侦听器总线启动后，事件才会实际传播到所有连接的侦听器。 当调用 stop() 时，该监听器总线将停止，停止后它将丢弃更多事件。
 */
private[spark] class LiveListenerBus(conf: SparkConf) {

  import LiveListenerBus._

  private var sparkContext: SparkContext = _

  private[spark] val metrics = new LiveListenerBusMetrics(conf)

  // 表示是否调用了`start()`方法==>总线已启动
  private val started = new AtomicBoolean(false)
  // 表示是否调用了`stop()`方法==>总线已启动
  private val stopped = new AtomicBoolean(false)

  /** 事件放弃计数器 */
  private val droppedEventsCounter = new AtomicLong(0L)

  /** 上次记录“droppedEventsCounter”的时间（以毫秒为单位）。 */
  @volatile private var lastReportTimestamp = 0L

  private val queues = new CopyOnWriteArrayList[AsyncEventQueue]()

  // Visible for testing.
  @volatile private[scheduler] var queuedEvents = new mutable.ListBuffer[SparkListenerEvent]()

  /**将侦听器添加到所有非内部侦听器共享的队列中。 */
  def addToSharedQueue(listener: SparkListenerInterface): Unit = {
    addToQueue(listener, SHARED_QUEUE)
  }

  /** 将监听器添加到执行器管理队列中。 */
  def addToManagementQueue(listener: SparkListenerInterface): Unit = {
    addToQueue(listener, EXECUTOR_MANAGEMENT_QUEUE)
  }

  /** 将侦听器添加到应用程序状态队列。*/
  def addToStatusQueue(listener: SparkListenerInterface): Unit = {
    addToQueue(listener, APP_STATUS_QUEUE)
  }

  /** 将监听器添加到事件日志队列. */
  def addToEventLogQueue(listener: SparkListenerInterface): Unit = {
    addToQueue(listener, EVENT_LOG_QUEUE)
  }

  /**
   * 将侦听器添加到特定队列，并根据需要创建新队列。 
   * 队列彼此独立（每个队列使用单独的线程来传递事件），允许较慢的侦听器在一定程度上与其他侦听器隔离。
   */
  private[spark] def addToQueue(
      listener: SparkListenerInterface,
      queue: String): Unit = synchronized {
    if (stopped.get()) {
      throw new IllegalStateException("LiveListenerBus is stopped.")
    }

    // 先寻找队列是否存在，如果存在就注册，不存在就创建新队列并注册
    queues.asScala.find(_.name == queue) match {
      case Some(queue) =>
        queue.addListener(listener)

      case None =>
        val newQueue = new AsyncEventQueue(queue, conf, metrics, this)
        newQueue.addListener(listener)
        if (started.get()) {
          newQueue.start(sparkContext)
        }
        queues.add(newQueue)
    }
  }

  def removeListener(listener: SparkListenerInterface): Unit = synchronized {
    // 从添加到的所有队列中删除侦听器，并停止已变空的队列。
    queues.asScala
      .filter { queue =>
        queue.removeListener(listener)
        queue.listeners.isEmpty()
      }
      .foreach { toRemove =>
        if (started.get() && !stopped.get()) {
          toRemove.stop()
        }
        queues.remove(toRemove)
      }
  }

  /** 将事件转发到所有的队列中 */
  def post(event: SparkListenerEvent): Unit = {
    if (stopped.get()) {
      return
    }

    metrics.numEventsPosted.inc()

    // 如果事件缓冲区为空，则意味着总线已启动，我们可以避免同步并将事件直接发布到队列中。 这应该是事件总线生命周期中最常见的情况。
    if (queuedEvents == null) {
      postToQueues(event)
      return
    }

    // 否则，需要同步检查总线是否启动，以确保调用 start() 的线程拾取新事件。
    synchronized {
      if (!started.get()) {
        queuedEvents += event
        return
      }
    }

    // 如果进行上述检查时总线已经启动，则直接发送到队列。
    postToQueues(event)
  }

  // 遍历所有队列进行事件分发
  private def postToQueues(event: SparkListenerEvent): Unit = {
    val it = queues.iterator()
    while (it.hasNext()) {
      it.next().post(event)
    }
  }

  /**
   * 启动每个队列，并发送queuedEvents中缓存的事件。每个队列就开始消费之前post的事件并调用postToAll()方法将事件发送给监视器。
   *
   * 这首先发送在此侦听器总线启动之前发布的所有缓冲事件，然后在侦听器总线仍在运行时异步侦听任何其他事件。
   * 这应该只被调用一次。
   *
   * @param sc Used to stop the SparkContext in case the listener thread dies.
   */
  def start(sc: SparkContext, metricsSystem: MetricsSystem): Unit = synchronized {
    if (!started.compareAndSet(false, true)) {
      throw new IllegalStateException("LiveListenerBus already started.")
    }

    this.sparkContext = sc
    queues.asScala.foreach { q =>
      q.start(sc)
      queuedEvents.foreach(q.post)
    }
    queuedEvents = null
    metricsSystem.registerSource(metrics)
  }

  /**
   * Exposed for testing.
   */
  @throws(classOf[TimeoutException])
  def waitUntilEmpty(timeoutMillis: Long): Unit = {
    val deadline = System.currentTimeMillis + timeoutMillis
    queues.asScala.foreach { queue =>
      if (!queue.waitUntilEmpty(deadline)) {
        throw new TimeoutException(s"The event queue is not empty after $timeoutMillis ms.")
      }
    }
  }

  /**
   * 停止监听器总线。 它将等待，直到处理完排队的事件，但在停止后删除新事件。
   */
  def stop(): Unit = {
    if (!started.get()) {
      throw new IllegalStateException(s"Attempted to stop bus that has not yet started!")
    }

    if (!stopped.compareAndSet(false, true)) {
      return
    }

    synchronized {
      queues.asScala.foreach(_.stop())
      queues.clear()
    }
  }

  // For testing only.
  private[spark] def findListenersByClass[T <: SparkListenerInterface : ClassTag](): Seq[T] = {
    queues.asScala.flatMap { queue => queue.findListenersByClass[T]() }
  }

  // For testing only.
  private[spark] def listeners: JList[SparkListenerInterface] = {
    queues.asScala.flatMap(_.listeners.asScala).asJava
  }

  // For testing only.
  private[scheduler] def activeQueues(): Set[String] = {
    queues.asScala.map(_.name).toSet
  }

}

private[spark] object LiveListenerBus {
  // Allows for Context to check whether stop() call is made within listener thread
  val withinListenerThread: DynamicVariable[Boolean] = new DynamicVariable[Boolean](false)

  private[scheduler] val SHARED_QUEUE = "shared"

  private[scheduler] val APP_STATUS_QUEUE = "appStatus"

  private[scheduler] val EXECUTOR_MANAGEMENT_QUEUE = "executorManagement"

  private[scheduler] val EVENT_LOG_QUEUE = "eventLog"
}

private[spark] class LiveListenerBusMetrics(conf: SparkConf)
  extends Source with Logging {

  override val sourceName: String = "LiveListenerBus"
  override val metricRegistry: MetricRegistry = new MetricRegistry

  val numEventsPosted: Counter = metricRegistry.counter(MetricRegistry.name("numEventsPosted"))

  // Guarded by synchronization.
  private val perListenerClassTimers = mutable.Map[String, Timer]()
      
  def getTimerForListenerClass(cls: Class[_ <: SparkListenerInterface]): Option[Timer] = {
    synchronized {
      val className = cls.getName
      val maxTimed = conf.get(LISTENER_BUS_METRICS_MAX_LISTENER_CLASSES_TIMED)
      perListenerClassTimers.get(className).orElse {
        if (perListenerClassTimers.size == maxTimed) {
          logError(s"Not measuring processing time for listener class $className because a " +
            s"maximum of $maxTimed listener classes are already timed.")
          None
        } else {
          perListenerClassTimers(className) =
            metricRegistry.timer(MetricRegistry.name("listenerProcessingTime", className))
          perListenerClassTimers.get(className)
        }
      }
    }
  }

}

Spark任务启动时，会在SparkContext中启动spark运行的事件总线（LiveListenerBus）

  private def setupAndStartListenerBus(): Unit = {
    try {
      conf.get(EXTRA_LISTENERS).foreach { classNames =>
        val listeners = Utils.loadExtensions(classOf[SparkListenerInterface], classNames, conf)
        listeners.foreach { listener =>
          listenerBus.addToSharedQueue(listener)
          logInfo(s"Registered listener ${listener.getClass().getName()}")
        }
      }
    } catch {
      case e: Exception =>
        try {
          stop()
        } finally {
          throw new SparkException(s"Exception when registering SparkListener", e)
        }
    }
    // 启动应用的运行事件总线
    listenerBus.start(this, _env.metricsSystem)
    _listenerBusStarted = true
  }

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
大数据毕设图像识别-人脸识别与疲劳检测 - python opencv fawubio_A python 算法
文章目录0前言1课题背景2Dlib人脸识别2.1简介2.2Dlib优点2.3相关代码2.4人脸数据库2.5人脸录入加识别效果3疲劳检测算法3.1眼睛检测算法3.2打哈欠检测算法3.3点头检测算法4PyQt54.1简介4.2相关界面代码0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师
大数据开发（Hive面试真题-卷二） Key-Key 大数据 hive 面试
大数据开发（Hive面试真题）1、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？2、说下Hive是什么？跟数据仓库区别？3、Hive架构？4、Hive数据倾斜以及解决方案？5、Hive如果不用参数调优，在map和reduce端应该做什么？6、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？7、Hive分区和分桶的区别？8、Hive的执行流程？9、Hive
【大数据面试题】014 Flink CDC 用过吗，请简要描述 Jiweilai1 一天一道面试题 flink 大数据面试 flink cdc
一步一个脚印，一天一道面试题。FlinkCDC的诞生背景FlinkCDC的全称是ChangeDataCapture（变更数据捕获）每一项技术的诞生都是为了解决某个问题，某个痛点。而FlinkCDC的诞生就是为了解决在读取，监控MySQL这样的数据库时，不会因为读取数据库，对数据库本身造成压力，影响性能。同时，保证了数据源的准确，正确。FlinkCDC原理方式一：通过查询来获取更新的数据。如查询数据
【大数据】Flink SQL 语法篇（五）：Regular Join、Interval Join G皮T #Flink SQL 大数据 flink sql Regular Join Interval Join 双流Join
《FlinkSQL语法篇》系列，共包含以下10篇文章：FlinkSQL语法篇（一）：CREATEFlinkSQL语法篇（二）：WITH、SELECT&WHERE、SELECTDISTINCTFlinkSQL语法篇（三）：窗口聚合（TUMBLE、HOP、SESSION、CUMULATE）FlinkSQL语法篇（四）：Group聚合、Over聚合FlinkSQL语法篇（五）：RegularJoin、I
有一点动心段duan
《有一点动心》是6月4日新上映的一部影片，在香山国际影城的支持下，与水姐观影群的伙伴们共同观看了这部影片。随着社会意识形态的不断变化，人们对感情的态度，也呈现出多元化的状态。爱情，自从人类诞生之日起，不论朝代如何更替变迁，都是生命的一大核心主题，演绎出无数个动人的故事，让经历者体验其中，让倾听者无比动容。从调查出来的大数据来看，适龄人群的不婚比例，是空前高的一个数字，越来越多的适婚人士，加入了不婚
Spark Q&A 耐心的农夫2020
Q:在读取文件的时候，如何忽略空gzip文件?A:从Spark2.1开始，你可以通过启用spark.sql.files.ignoreCorruptFiles选项来忽略损毁的文件。可以将下面的选项添加到你的spark-submit或者pyspark命令中。--confspark.sql.files.ignoreCorruptFiles=true另外spark支持的选项可以通过在spark-shell
大数据开发（Kafka面试真题-卷一） Key-Key 大数据 kafka 面试
大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？3、解释以下ApacheKafka的作用以及它与常见消息队列系统（如RabbitMQ）之间的区别？4、如何使用ApacheKafka来实现实时数据流处理？5、Flinkcheckpoint和Kafkaoffset的关联是什么？
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
挑战杯大数据商城人流数据分析与可视化 - python 大数据分析 laafeer python
0前言优质竞赛项目系列，今天要分享的是基于大数据的基站数据分析与可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate课题背景随着当今个人手机终端的普及，出行群体中手机拥有率和使用率已达到相当高的比例，手
Java开发从入门到精通（七）：Java的面向对象编程OOP：常用API HACKNOE Java开发从入门到精通 java intellij-idea
Java大数据开发和安全开发（一）Java的常用API1.1Object类1.1toString1.1equals方法1.1对象克隆clone1.1Objects类1.1包装类1.1StringBuilder1.1StringBuffer1.1StringJoiner1.1Math、System、Runtime1.1BigDecimal1.1传统时间：Date日期类、SimpleDateForma
linux安装单机版spark3.5.0 爱上雪茄大数据 JAVA知识 spark 大数据分布式
一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0三、spark环境变量配置exportJAVA_HOME=/usr/local/jdk1.8.0_391exportJRE_HOME=/usr/local/jdk1.8.0_391/jr
Hadoop简介程序员小郭同学 hadoop
简介大数据简介概述大数据的说法从出现到现在，也经历了十多年时间的发展。而在这十几年的发展过程中，非常多的机构、组织都试图对大数据做出过定义，例如：研究机构Gartner给出了这样的定义："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
数大数据时代的关键：融合数据治理与AI为企业增值_光点科技光点数据治理人工智能大数据科技
在数据驱动的今天，企业不能再将数据治理和人工智能（AI）视作孤立的实体。它们之间的协同作用已经成为推动企业增长的强大引擎。本文将探索数据治理与AI如何相互作用，形成闭环，以及企业如何利用这一关系来提升数据价值，实现数字化转型。数据治理与AI的依存共生数据治理是整理和优化数据的过程，以确保其质量、安全性和可用性。而AI，尤其是大模型，是解析和应用这些数据的工具。没有高质量的数据治理，AI无法发挥其最
2024年阿里云大数据acp认证条件腾科教育阿里云大数据云计算
阿里云大数据acp认证考试没有条件，在校大学生、应届毕业生、在职员工均可报考。acp认证考试预约流程1.账户注册，认证人员登录阿里云认证全球培训中心网站，在页面右上角点击“立即注册”2.选择专业。账户注册成功会自动返回到网站首页，认证人员根据实际需要进行报考，3,认证购买。进入专业介绍页后点击“购买认证"跳转到认证购买页，点击对应专业认证名称再点击“立即购买”，确认订单后完成支付即可。4.考试预约
Redis 的 RDB 和 AOF 龙大. Redis redis 数据库
1.RDB(RedisDatabase)定义:RDB是Redis的持久化机制之一，它会在指定的时间间隔内生成数据集的时间点快照。工作原理:当RDB持久化被触发时，Redis会创建一个子进程来执行实际的数据保存工作，父进程则继续处理客户端请求。子进程将内存中的数据写入到一个临时RDB文件中，完成后替换旧的RDB文件。优点:快速恢复大数据集。子进程创建的方式减少了主进程的内存消耗。RDB文件是一个紧凑
挑战杯机器学习股票大数据量化分析与预测系统 - python 挑战杯 laafeer python
文章目录0前言1课题背景2实现效果UI界面设计web预测界面RSRS选股界面3软件架构4工具介绍Flask框架MySQL数据库LSTM5最后0前言优质竞赛项目系列，今天要分享的是机器学习股票大数据量化分析与预测系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com
03hive数仓安装与基础使用 daydayup9527 hadoop_hive 运维 hadoop
hiveHive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，本质上还是一个文件底层是将sql语句转换为MapReduce任务进行运行本质上是一种大数据离线分析工具学习成本相当低，不用开发复杂的mapreduce应用，十分适合数据仓库的统计分析hive可以用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在hadoop
Spark的数据结构——RDD bluedraam_pp Spark spark 数据结构大数据
RDD的5个特征下面来说一下RDD这东西，它是ResilientDistributedDatasets的简写。咱们来看看RDD在源码的解释。Alistofpartitions:在大数据领域，大数据都是分割成若干个部分，放到多个服务器上，这样就能做到多线程的处理数据，这对处理大数据量是非常重要的。分区意味着，可以使用多个线程了处理。Afunctionforcomputingeachsplit：作用在
Hbase集群搭建超详细教程笑看风云路集群搭建系列 hbase hbase hadoop 大数据
Hbase集群搭建前言详细步骤1、下载安装包2、解压3、修改配置文件3.1修改hbase-env.sh文件3.2修改hbase-site.xml3.3修改regionservers文件4、分发hbase目录5、启动HBase集群6、查看HBaseWebUI大家好，我是风云，欢迎大家关注我的博客，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！前言HBase是一个开源的、
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

【Spark源码分析】事件总线机制分析

Spark事件总线机制

主体逻辑

代码详解

org.apache.spark.util.ListenerBus Traits类

org.apache.spark.util.ListenerBus.SparkListenerBus

事件的存储与转发队列

spark运行事件总线

你可能感兴趣的:(Spark,spark,大数据)

`org.apache.spark.util.ListenerBus` Traits类

`org.apache.spark.util.ListenerBus.SparkListenerBus`