Spark Shuffle模块详解

Shuffle，具有某种共同特征的一类数据需要最终汇聚（aggregate）到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。以最简单的Word Count为例，其中数据保存在Node1、Node2和Node3；经过处理后，这些数据最终会汇聚到Nodea、Nodeb处理。

这个数据重新打乱然后汇聚到不同节点的过程就是Shuffle。但是实际上，Shuffle过程可能会非常复杂：
（1）数据量会很大，比如单位为TB或PB的数据分散到几百甚至数千、数万台机器上。
（2）为了将这个数据汇聚到正确的节点，需要将这些数据放入正确的Partition，因为数据大小已经大于节点的内存，因此这个过程中可能会发生多次硬盘续写。
（3）为了节省带宽，这个数据可能需要压缩，如何在压缩率和压缩解压时间中间做一个比较好的选择？
（4）数据需要通过网络传输，因此数据的序列化和发序列化也变得相对复杂。
一般来说，每个Task处理的数据可以完全载入内存（如果不能，可以减小每个Partition的大小），因此Task可以做到在内存中计算。除非非常复杂的计算逻辑，否则为了容错而持久化中间的数据是没有太大收益的，毕竟中间某个过程出错了可以从头开始计算。但是对于Shuffle来说，如果不持久化这个中间结果，一旦数据丢失，就需要重新计算依赖的全部RDD，因此有必要持久化这个中间结果。

一、Hash Based Shuffle Write

在很多运算场景中并不需要排序，多余的排序只能使性能变差，比如Hadoop的Map Reduce就是这么实现的，也就是Reducer拿到的数据都是已经排好序的。实际上Spark的实现很简单：每个Shuffle Map Task根据key的哈希值，计算出每个key需要写入的Partition然后将数据单独写入一个文件，这个Partition实际上就对应了下游的一个Shuffle Map Task或者Result Task。因此下游的Task在计算时会通过网络（如果该Task与上游的Shuffle Map Task运行在同一个节点上，那么此时就是一个本地的硬盘读写）读取这个文件并进行计算。

1，Basic Shuffle Writer实现解析

在Executor上执行Shuffle Map Task时，最终会调用org.apache.spark.scheduler.ShuffleMapTask的runTask。
主要逻辑：

val manager = SparkEnv.get.shuffleManager
writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)
writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_<:Product2[Any, Any]]])return 
writer.stop(success = true).get

（1）从SparkEnv中获得shuffleManager，就如前面提到的，Spark除了支持Hash和Sort Based Shuffle外，还支持external的Shuffle Service。用户可以通过实现几个类就可以使用自定义的Shuffle。
（2）从manager里取得Writer，在这里获得的是org.apache.spark.shuffle.hash.HashShuffleWriter。
（3）调用rdd开始运算，运算结果通过Writer进行持久化，逻辑在org.apache.spark.shuffle.hash.HashShuffleWriter#write。开始时通过org.apache.spark.Shuffle-Dependency是否定义了org.apache.spark.Aggregator来确定是否需要做Map端的聚合。然后将原始结果或者聚合后的结果通过org.apache.spark.shuffle.FileShuffleBlockManager#forMapTask的方法写入。写入完成后，会将元数据信息写入org.apache.spark.scheduler.MapStatus。然后下游的Task可以通过这个MapStatus取得需要处理的数据。

2，存在的问题

由于每个Shuffle Map Task需要为每个下游的Task创建一个单独的文件，因此文件的数量就是number（shuffle_map_task）*number（following_task）。如果Shuffle Map Task是1000，下游的Task是500，那么理论上会产生500000个文件（对于size为0的文件Spark有特殊的处理）。生产环境中Task的数量实际上会更多，因此这个简单的实现会带来以下问题：
（1）每个节点可能会同时打开多个文件，每次打开文件都会占用一定内存。假设每个Write Handler的默认需要100KB的内存，那么同时打开这些文件需要50GB的内存，对于一个集群来说，还是有一定的压力的。尤其是如果Shuffle Map Task和下游的Task同时增大10倍，那么整体的内存就增长到5TB。
（2）从整体的角度来看，打开多个文件对于系统来说意味着随机读，尤其是每个文件比较小但是数量非常多的情况。而现在机械硬盘在随机读方面的性能特别差，非常容易成为性能的瓶颈。如果集群依赖的是固态硬盘，也许情况会改善很多，但是随机写的性能肯定不如顺序写的。

3，Shuffle Consolidate Writer

对于运行在同一个Core的Shuffle Map Task，第一个Shuffle Map Task会创建一个文件；之后的就会将数据追加到这个文件上而不是新建一个文件。因此文件数量就从number（shuffle_map_task）*number（following_task）变成了number（cores）*number（following_task）。当然，如果每个Core都只运行一个Shuffle Map Task，那么就和原来的机制一样了。但是Shuffle Map Task明显多于Core数量或者说每个Core都会运行多个Shuffle Map Task，所以这个实现能够显著减少文件的数量。

不同的org.apache.spark.shuffle.FileShuffleBlockManager#forMapTask#writers的实现：

val writers: Array[BlockObjectWriter] = if (consolidateShuffleFiles) {
    fileGroup = getUnusedFileGroup() //获得没有使用的FileGroup
    Array.tabulate[BlockObjectWriter](numBuckets) { bucketId =>
		val blockId = ShuffleBlockId(shuffleId, mapId, bucketId)
        blockManager.getDiskWriter(blockId, fileGroup(bucketId), serializer,
			bufferSize,
		writeMetrics)
	}
} else { // Basic Shuffle Writer的实现

org.apache.spark.shuffle.FileShuffleBlockManager.ShuffleFileGroup可以理解成一个文件组，这个文件组的每个文件都对应一个Partition或者下游的Task。因此对第一个Shuffle Map Task来说，它创建了一个文件；而接下来的Shuffle Map Task都是以追加的方式写这个文件。
blockManager.getDiskWriter为每个文件创建一个org.apache.spark.storage.DiskBlock-ObjectWriter，DiskBlockObjectWriter可以直接向一个文件写入数据，如果文件已经存在那么会以追加的方式写入。
但是下游的Task如何区分文件不同的部分呢？在同一个Core上运行Shuffle Map Task相当于写了这个文件的不同的部分。答案就在org.apache.spark.shuffle.FileShuffleBlockManager.ShuffleFileGroup#getFileSegmentFor。

二、Shuffle Pluggable框架

1，org.apache.spark.shuffle.ShuffleManager

Driver和每个Executor都会持有一个ShuffleManager，这个ShuffleManager可以通过配置项spark.shuffle.manager指定，并且由SparkEnv创建。Driver中的ShuffleManager负责注册Shuffle的元数据，比如shuffleId、Map Task的数量等。Executor中的ShuffleManager则负责读和写Shuffle的数据。
需要实现的函数及其功能说明如下：
（1）由Driver注册元数据信息

def registerShuffle[K, V, C](
    shuffleId: Int,
    numMaps: Int,
    dependency: ShuffleDependency[K, V, C]): ShuffleHandle

一般如果没有特殊的需求，可以使用下面的实现，实际上Hash Based Shuffle和Sort Based Shuffle都是这么实现的。

override def registerShuffle[K, V, C](
    shuffleId: Int,
    numMaps: Int,
    dependency: ShuffleDependency[K, V, C]): ShuffleHandle = { 
		new BaseShuffleHandle(shuffleId, numMaps, dependency)
}

（2）获得Shuffle Writer，根据Shuffle Map Task的ID为其创建Shuffle Writer。

def getWriter[K, V](handle: ShuffleHandle, mapId: Int, context: TaskContext): 
   ShuffleWriter[K, V]

（3）获得Shuffle Reader，根据shuffleId和Partition的ID为其创建Shuffle Reader。

def getReader[K, C](
    handle: ShuffleHandle,
    startPartition: Int,
    endPartition: Int,
context: TaskContext): ShuffleReader[K, C]

（4）为数据成员shuffleBlockManager赋值，以保存实际的ShuffleBlockManager。
（5）def unregisterShuffle（shuffleId：Int）：Boolean，删除本地的Shuffle的元数据。
（6）def stop（）：Unit，停止Shuffle Manager。
每个接口的具体实现的例子，可以参照org.apache.spark.shuffle.sort.SortShuffle-Manager和org.apache.spark.shuffle.hash.HashShuffleManager。

2，org.apache.spark.shuffle.ShuffleWriter

Shuffle Map Task通过ShuffleWriter将Shuffle数据写入本地。这个Writer主要通过ShuffleBlockManager来写入数据，因此它的功能是比较轻量级的。
（1）def write（records：Iterator[_<：Product2[K，V]]）：Unit，写入所有的数据。需要注意的是如果需要在Map端做聚合，那么写入前需要将records做聚合。
（2）def stop（success：Boolean）：Option[MapStatus]，写入完成后提交本次写入。
对于Hash Based Shuffle，请查看org.apache.spark.shuffle.hash.HashShuffleWriter；对于Sort Based Shuffle，请查看org.apache.spark.shuffle.sort.SortShuffleWriter。

3，org.apache.spark.shuffle.ShuffleBlockManager

主要使用从本地读取Shuffle数据的功能。这些接口都是通过org.apache.spark.storage.BlockManager调用的。
（1）def getBytes（blockId：ShuffleBlockId）：Option[ByteBuffer]，一般通过调用下一个接口实现，只不过将ManagedBuffer转换成了ByteBuffer。
（2）def getBlockData（blockId：ShuffleBlockId）：ManagedBuffer，核心读取逻辑。因为不同的实现，文件的组织方式可能是不一样的，比如Hash Based Shuffle从本地读取文件都是通过这个接口实现的，比如Sort Based Shuffle需要先通过读取Index索引文件获得每个Partition的起始位置后，才能读取真正的数据文件。
（3）def stop（）：Unit，停止该Manager。
对于Hash Based Shuffle，请查看org.apache.spark.shuffle.FileShuffleBlockManager；对于Sort Based Shuffle，请查看org.apache.spark.shuffle.IndexShuffleBlockManager。

4，org.apache.spark.shuffle.ShuffleReader

ShuffleReader实现了下游Task如何读取上游ShuffleMapTask的Shuffle输出的逻辑。这个逻辑比较复杂，简单来说就是通过org.apache.spark.MapOutputTracker获得数据的位置信息，如果数据在本地则调用org.apache.spark.storage.BlockManager的getBlockData读取本地数据（实际上getBlockData最终会调用org.apache.spark.shuffle.ShuffleBlockManager的getBlockData）。

三、Sort Based Write

在Spark 1.2.0中，Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle，即spark.shuffle.manager从Hash换成了Sort，对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sort.SortShuffleManager。

在org.apache.spark.SparkEnv的实现：

// Let the user specify short names for shuffle managers
val shortShuffleMgrNames = Map(
    "hash" -> "org.apache.spark.shuffle.hash.HashShuffleManager",
    "sort" -> "org.apache.spark.shuffle.sort.SortShuffleManager")
val shuffleMgrName = conf.get("spark.shuffle.manager", "sort") //获得Shuffle //Manager的类型，默认为sort
val shuffleMgrClass = shortShuffleMgrNames.getOrElse(shuffleMgrName.   toLowerCase, shuffleMgrName)
val shuffleManager = instantiateClass[ShuffleManager](shuffleMgrClass)

Sort Based Shuffle“取代”Hash Based Shuffle作为默认选项的原因：
Hash Based Shuffle的每个Mapper都需要为每个Reducer写一个文件，供Reducer读取，即需要产生M*R个数量的文件，如果Mapper和Reducer的数量比较大，产生的文件数会非常多。Hash Based Shuffle设计的目标之一就是避免不需要的排序（Hadoop Map Reduce被人诟病的地方，很多不需要Sort的地方的Sort导致了不必要的开销）。但是它在处理超大规模数据集的时候，产生了大量的Disk IO和内存的消耗，这无疑很影响性能。Hash Based Shuffle也在不断的优化中，正如前面讲到的Spark 0.8.1引入的File Consolidation在一定程度上解决了这个问题。为了更好地解决这个问题，Spark 1.1引入了Sort Based Shuffle。首先，每个Shuffle Map Task不会为每个Reducer生成一个单独的文件；相反，它会将所有的结果写到一个文件里，同时会生成一个Index文件，Reducer可以通过这个Index文件取得它需要处理的数据。避免产生大量文件的直接收益就是节省了内存的使用和顺序Disk IO带来的低延时。节省内存的使用可以减少GC的风险和频率。而减少文件的数量可以避免同时写多个文件给系统带来的压力。

Shuffle Map Task会按照key相对应的Partition ID进行Sort，其中属于同一个Partition的key不会Sort。因为对于不需要Sort的操作来说，这个Sort是负收益的；要知道之前Spark刚开始使用Hash Based的Shuffle而不是Sort Based就是为了避免Hadoop Map Reduce对于所有计算都会Sort的性能损耗。对于那些需要Sort的运算，比如sortByKey，这个Sort在Spark 1.2.0里还是由Reducer完成的。

核心实现的逻辑都在类org.apache.spark.shuffle.sort.SortShuffleWriter和它依赖的类中。下面简要分析它的实现：
（1）对于每个Partition，创建一个scala.Array存储它所包含的key/value对。每个待处理的key/value对都会插入相应的scala.Array。
（2）如果scala.Array的大小超过阈值，那么需要将这个内存的数据写入到外部存储。这个文件的开始部分会记录这个Partition的ID及这个文件保存了多少个数据条目等信息。
（3）最后需要将所有写入到外部存储的文件进行归并排序。同时打开的文件不能过多，过多会消耗大量的内存，增加内存溢出（Out of Memory，OOM）或者垃圾回收的风险；也不能过少，过少就会影响性能，增大计算的延时。一般推荐每次同时打开10~100个文件。
（4）在生成最后的数据文件时，需要同时生成Index索引文件。正如前面提到的，这个索引文件将记录不同Partition的起始位置。

四、Shuffle Map Task运算结果的处理

Shuffle Map Task运算结果的处理分为两部分，一个是在Executor端直接处理Task结果的；另一个是Driver端在接到Task运行结束的消息时对Shuffle Write的结果进行处理，从而在调度下游的Task时，使其可以得到需要的数据。

1，Executor端的处理

2，Driver端的处理

TaskRunner将Task的执行状态汇报给Driver后，Driver会转给org.apache.spark.scheduler.TaskSchedulerImpl#statusUpdate。，不同的状态有不同的处理：
如果类型是TaskState.FINISHED，那么调用org.apache.spark.scheduler.TaskResultGetter#enqueueSuccessfulTask进行处理。
如果类型是TaskState.FAILED或者TaskState.KILLED或者TaskState.LOST，调用org.apache.spark.scheduler.TaskResultGetter#enqueueFailedTask进行处理。对于TaskState.LOST，还需要将其所在的Executor标记为failed，并且根据更新后的Executor重新调度。

enqueueSuccessfulTask的逻辑也比较简单，即如果是IndirectTaskResult，那么需要通过blockId来获取结果：sparkEnv.blockManager.getRemoteBytes（blockId）；如果是DirectTaskResult，那么结果就无需远程获取了。

核心逻辑是5个调用栈：
（1）org.apache.spark.scheduler.TaskSchedulerImpl#handleSuccessfulTask
（2）org.apache.spark.scheduler.TaskSetManager#handleSuccessfulTask
（3）org.apache.spark.scheduler.DAGScheduler#taskEnded
（4）org.apache.spark.scheduler.DAGScheduler#eventProcessActor
（5）org.apache.spark.scheduler.DAGScheduler#handleTaskCompletion

对于ShuffleMapTask来说，其结果实际上是org.apache.spark.scheduler.MapStatus；其序列化后存入了DirectTaskResult或者IndirectTaskResult中。而DAGScheduler#handleTaskCompletion通过下面的方式来获取这个结果：

val status =event.result.asInstanceOf[MapStatus]

通过将这个status注册到org.apache.spark.MapOutputTrackerMaster，就完成了结果处理的过程：

mapOutputTracker.registerMapOutputs(
    stage.shuffleDep.get.shuffleId,
	stage.outputLocs.map(list => if (list.isEmpty) null else list.head).toArray,
	changeEpoch = true)

registerMapOutputs的处理也很简单，以shuffleID为key将MapStatus的列表存入带有时间戳的HashMap：TimeStampedHashMap[Int，Array[MapStatus]]（）。如果设置了cleanup的函数，那么这个HashMap会将超过一定时间（TTL，Time to Live）的数据清理掉。

五、Shuffle Read

除了需要从外部存储读取数据和RDD已经做过cache或者checkpoint的Task，一般Task都是从ShuffledRDD的Shuffle Read开始的。

1，整体流程

org.apache.spark.rdd.ShuffledRDD#compute开始，通过调用org.apache.spark.shuffle.ShuffleManager的getReader方法，获取到org.apache.spark.shuffle.ShuffleReader，然后调用其read（）方法进行读取。在Spark 1.2.0中，不管是Hash Based Shuffle或者是Sort Based Shuffle，内置的Shuffle Reader都是org.apache.spark.shuffle.hash.HashShuffleReader。

override def read(): Iterator[Product2[K, C]] = {
    val ser = Serializer.getSerializer(dep.serializer)
    // 获取结果
	val iter = BlockStoreShuffleFetcher.fetch(handle.shuffleId, start-Partition,context,ser)
    // 处理结果
    val aggregatedIter: Iterator[Product2[K, C]] = if (dep.aggregator.isDefined) {
	//需要聚合
    if (dep.mapSideCombine) {//需要mapSide的聚合
		new InterruptibleIterator(context, dep.aggregator.get.combineCombiners-
			ByKey(iter, context))
	} else {//只需要Reducer端的聚合
		new InterruptibleIterator(context, dep.aggregator.get.combineValues-
			ByKey(iter, context))
}
    } else { // 无需聚合操作
		iter.asInstanceOf[Iterator[Product2[K, C]]].map(pair => (pair._1, pair._2))
	}
    // Sort the output if there is a sort ordering defined.
    dep.keyOrdering match {//判断是否需要排序
		case Some(keyOrd: Ordering[K]) => //对于需要排序的情况        使用ExternalSorter进行排序，注意如果spark.shuffle.spill是false，那么数据是不会写入到硬盘的
        val sorter = new ExternalSorter[K, C, C](ordering = Some(keyOrd),
			serializer = Some(ser))
			sorter.insertAll(aggregatedIter)
			context.taskMetrics.memoryBytesSpilled += sorter.memoryBytesSpilled
			context.taskMetrics.diskBytesSpilled += sorter.diskBytesSpilled
			sorter.iterator
		case None => //无需排序
			aggregatedIter
	}
}

org.apache.spark.shuffle.hash.BlockStoreShuffleFetcher#fetch会获得数据，它首先会通过org.apache.spark.MapOutputTracker#getServerStatuses来获得数据的meta信息，这个过程有可能需要向org.apache.spark.MapOutputTrackerMasterActor发送读请求，这个读请求是在org.apache.spark.MapOutputTracker#askTracker发出的。在获得了数据的meta信息后，它会将这些数据存入Seq[（BlockManagerId，Seq[（BlockId，Long）]）]中，然后调用org.apache.spark.storage.ShuffleBlockFetcherIterator最终发起请求。ShuffleBlockFetcherIterator根据数据的本地性原则进行数据获取。如果数据在本地，那么会调用org.apache.spark.storage.BlockManager#getBlockData进行本地数据块的读取。而对于shuffle类型的数据，会调用ShuffleManager的ShuffleBlockManager的getBlockData。
如果数据在其他的Executor上，若用户使用的spark.shuffle.blockTransferService是netty，那么就会通过org.apache.spark.network.netty.NettyBlockTransferService#fetchBlocks获取；如果使用的是nio，那么就会通过org.apache.spark.network.nio.NioBlockTransferService#fetchBlocks获取。

2，数据读取策略的划分

org.apache.spark.storage.ShuffleBlockFetcherIterator会通过splitLocalRemoteBlocks划分数据的读取策略：如果数据在本地，那么可以直接从BlockManager中获取；如果需要从其他的节点上获取，则需要通过网络。由于Shuffle的数据量可能会很大，因此这里的网络读取分为以下几种策略：
（1）每次最多启动5个线程到最多5个节点上读取数据。
（2）每次请求的数据大小不会超过spark.reducer.maxMbInFlight（默认值为48MB）的五分之一。

3，本地读取

fetchLocalBlocks（）负责本地Block的获取。在splitLocalRemoteBlocks中，已经将本地的Block列表存入了localBlocks：private[this]val localBlocks=new Array-Buffer[BlockId]（）。

过程如下：

val iter = localBlocks.iterator
while (iter.hasNext) {
    val blockId = iter.next()
    try {
		val buf = blockManager.getBlockData(blockId)
        shuffleMetrics.localBlocksFetched += 1
        buf.retain()
        results.put(new SuccessFetchResult(blockId, 0, buf))
	} catch {
    }
}

blockManager.getBlockData（blockId）的实现：

override def getBlockData(blockId: BlockId): ManagedBuffer = {
    if (blockId.isShuffle) {
shuffleManager.shuffleBlockManager.getBlockData(blockId.asInstance-
    Of[ShuffleBlockId])
    }

以Hash Based Shuffle为例，它的ShuffleBlockManager是org.apache.spark.shuffle.FileShuffleBlockManager。FileShuffleBlockManager有两种情况，一种是consolidateFile的，这种需要根据Map ID和Reduce ID首先获得FileGroup的一个文件，然后根据在文件中的offset和size来获取需要的数据；如果是没有consolidateFile，那么根据Shuffle Block ID直接读取整个文件就可以。

override def getBlockData(blockId: ShuffleBlockId): ManagedBuffer = {
    if (consolidateShuffleFiles) {
		val shuffleState = shuffleStates(blockId.shuffleId)	
        val iter = shuffleState.allFileGroups.iterator
	while (iter.hasNext) {
		// 根据Map ID和Reduce ID获取File Segment的信息
        val segmentOpt = iter.next.getFileSegmentFor(blockId.mapId, blockId.reduceId)
        if (segmentOpt.isDefined) {
			val segment = segmentOpt.get
            // 根据File Segment的信息，从FileGroup中找到相应的File和Block在文件中的offset和size
            return new FileSegmentManagedBuffer(
				transportConf, segment.file, segment.offset, segment.length)
			}
		}
        throw new IllegalStateException("Failed to find shuffle block: " + blockId)
	} else {
		val file = blockManager.diskBlockManager.getFile(blockId) //直接获取文件句柄
		new FileSegmentManagedBuffer(transportConf, file, 0, file.length)
	}
}

对于Sort Based Shuffle，它需要通过索引文件来获得数据块在数据文件中的具体位置信息，从而读取这个数据。

org.apache.spark.shuffle.IndexShuffleBlockManager#getBlockData实现：

override def getBlockData(blockId: ShuffleBlockId): ManagedBuffer = {   
	//根据ShuffleID和MapID从org.apache.spark.storage.DiskBlockManager获取索引文件
    val indexFile = getIndexFile(blockId.shuffleId, blockId.mapId)
    val in = new DataInputStream(new FileInputStream(indexFile))
    try {
		ByteStreams.skipFully(in, blockId.reduceId * 8) //跳到本次Block的数据区
        val offset = in.readLong()                      //数据文件中的开始位置
        val nextOffset = in.readLong()                  //数据文件中的结束位置
        new FileSegmentManagedBuffer(
        transportConf,
        getDataFile(blockId.shuffleId, blockId.mapId), 
		offset,
        nextOffset - offset)
	} finally {
		in.close()
	}
}

4，远程读取

现在支持两种远程读取的方式，一种是netty，一种是nio，可以通过spark.shuffle.blockTransferService来进行设置。

org.apache.spark.storage.ShuffleBlockFetcherIterator#sendRequest会向远程的节点发起读取Block的请求：

shuffleClient.fetchBlocks(address.host,address.port,address.executorId,
     blockIds.toArray,
	 new BlockFetchingListener {
		override def onBlockFetchSuccess(blockId: String,buf: Managed-            
			Buffer): Unit = {
		//请求成功，省略非关键代码
        buf.retain()
        results.put(new SuccessFetchResult(BlockId(blockId), sizeMap
			(blockId), buf))
		}
        override def onBlockFetchFailure(blockId: String, e: Throwable):
			Unit = {
            results.put(new FailureFetchResult(BlockId(blockId), e))
	}
}

shuffleClient实际上在默认情况下（即spark.shuffle.service.enabled为false）就是blockTransferService：

private[spark] val shuffleClient = if (externalShuffleServiceEnabled) {
    val transConf = SparkTransportConf.fromSparkConf(conf, numUsableCores)
    new ExternalShuffleClient(transConf, securityManager, securityManager.isAuthenticationEnabled())
} else {
    blockTransferService
}
    blockTransferService是在SparkEnv里创建的：
    val blockTransferService = 
		conf.get("spark.shuffle.blockTransferService", "netty").toLowerCase match {
        case "netty" =>
			new NettyBlockTransferService(conf, securityManager, numUsableCores)
		case "nio" =>
			new NioBlockTransferService(conf, securityManager)
}

org.apache.spark.network.netty.NettyBlockTransferService的fetchBlocks的实现：它会调用org.apache.spark.network.shuffle.OneForOneBlockFetcher，OneForOneBlockFetcher持有org.apache.spark.network.client.TransportClient，它就是最终发送请求的Handler。TransportClient的请求会被org.apache.spark.network.netty.NettyBlockRpcServer接收并处理，通过上述的网络调用，请求最终会传到远程节点的BlockManager：由org.apache.spark.storage.BlockManager#getBlockData处理这个读取Block的请求。

六、性能调优

1，spark.shuffle.manager

Spark 1.2.0官方版本支持两种方式的Shuffle，即Hash Based Shuffle和Sort Based Shuffle。其中在Spark 1.0之前仅支持Hash Based Shuffle。Spark 1.1引入了Sort Based Shuffle。Spark1.2的默认Shuffle机制从Hash变成了Sort。如果需要Hash Based Shuffle，只需将spark.shuffle.manager设置成“hash”即可。
如果对性能有比较苛刻的要求，那么就要理解这两种不同的Shuffle机制的原理，结合具体的应用场景进行选择。
Hash Based Shuffle，就是根据Hash的结果，将各个Reducer Partition的数据写到单独的文件中去，写数据时不会有排序的操作。如果Reducer的Partition比较多，会产生大量的磁盘文件。这会带来两个问题：
（1）同时打开的文件比较多，那么大量的文件句柄和写操作分配的临时内存会非常大，会对内存的使用和GC带来很多压力。尤其是在Spark的YARN模式下Executor分配的内存普遍比较小的时候，这个问题会更严重。
（2）从整体来看，这些文件带来大量的随机读，读性能可能会遇到瓶颈。
Sort Based Shuffle会根据实际情况对数据采用不同的方式进行Sort。这个排序可能仅仅是按照Reducer的Partition进行排序，保证同一个Shuffle Map Task对应的不同的Reducer Partition的数据都可以写到同一个数据文件，通过一个offset来标记不同Reducer Partition的分界。因此一个Shuffle Map Task仅仅会生成一个数据文件（还有一个Index索引文件），从而避免了HashBased Shuffle文件数量过多的问题。
选择Hash还是Sort，取决于内存、排序和文件操作等因素的综合影响。
对于不需要进行排序且Shuffle产生的文件数量不是特别多时，Hash Based Shuffle可能是更好的选择；因为Sort Based Shuffle会按照Reducer的Partition进行排序。
而Sort Based Shuffle的优势就在于可扩展性，它的出现实际上很大程度上是解决Hash Based Shuffle的可扩展性的问题。由于Sort Based Shuffle还在不断地演进中，因此它的性能会得到不断改善。
对于选择哪种Shuffle，如果性能要求苛刻，最好还是通过实际测试后再做决定。不过选择默认的Sort，可以满足大部分的场景需要。

2，spark.shuffle.spill

这个参数的默认值是true，用于指定Shuffle过程中如果内存中的数据超过阈值（参考spark.shuffle.memoryFraction的设置）时是否需要将部分数据临时写入外部存储。如果设置为false，那么这个过程就会一直使用内存，会有内存溢出的风险。因此只有在确定内存足够使用时，才可以将这个选项设置为false。
Hash Based Shuffle的Shuffle Write过程中使用的org.apache.spark.util.collection.AppendOnlyMap就是全内存的方式，而org.apache.spark.util.collection.ExternalAppend-OnlyMap对org.apache.spark.util.collection.AppendOnlyMap有了进一步的封装，在内存使用超过阈值时会将它写入到外部存储，在最后的时候会对这些临时文件进行合并。
而Sort Based Shuffle Write使用到的org.apache.spark.util.collection.ExternalSorter也会有类似的写入。
对于Shuffle Read，如果需要做聚合，也可能在聚合的过程中将数据写入的外部存储。

3，spark.shuffle.memoryFraction和spark.shuffle.safetyFraction

在启用spark.shuffle.spill的情况下，spark.shuffle.memoryFraction决定了当Shuffle过程中使用的内存达到总内存多少比例的时候开始spill。在Spark 1.2.0里，这个值是0.2。通过这个参数可以设置Shuffle过程占用内存的大小，它直接影响了写入到外部存储的频率和垃圾回收的频率。
如果写入到外部存储的频率太高，那么可以适当地增加spark.shuffle.memoryFraction来增加Shuffle过程的可用内存数，进而减少写入到外部存储的频率。当然为了避免内存溢出，可能就需要减少RDD cache所用的内存，即需要减少spark.storage.memoryFraction的值；但是减少RDD cache所用的内存有可能会带来其他影响，因此需要综合考量。
在Shuffle过程中，Shuffle占用的内存数是估计出来的，并不是每次新增的数据项都会计算一次占用的内存大小，这样做是为了降低时间开销。但是估计也会有误差，因此存在实际使用的内存数比估算值要大的情况，因此参数spark.shuffle.safetyFraction作为一个保险系数降低实际Shuffle过程所需要的内存值，可以降低实际内存超出用户配置值的风险。

4，spark.shuffle.sort.bypassMergeThreshold

这个配置的默认值是200，用于设置在Reducer的Partition数目少于多少的时候，Sort Based Shuffle内部不使用归并排序的方式处理数据，而是直接将每个Partition写入单独的文件。这个方式和Hash Based的方式类似，区别就是在最后这些文件还是会合并成一个单独的文件，并通过一个Index索引文件来标记不同Partition的位置信息。从Reducer来看，数据文件和索引文件的格式和内部是否做过归并排序是完全相同的。
这个可以看作Sort Based Shuffle在Shuffle量比较小的时候对于Hash Based Shuffle的一种折中。当然了它和Hash Based Shuffle一样，也存在同时打开文件过多导致内存占用增加的问题。因此如果GC比较严重或者内存比较紧张，可以适当降低这个值。

5，spark.shuffle.blockTransferService

在Spark 1.2.0中这个配置的默认值是netty，而在之前的版本中是nio。它主要是用于在各个Executor之间传输Shuffle数据。netty的实现更加简洁，但实际上用户不用太关心这个选项。除非有特殊需求，否则采用默认配置即可。

6，spark.shuffle.consolidateFiles

这个配置的默认值是false。主要是为了解决在Hash Based Shuffle过程中产生过多文件的问题。如果配置选项为true，那么对于同一个Core上运行的Shuffle Map Task不会产生一个新的Shuffle文件而是重用原来的。但是每个Shuffle Map Task还是需要产生下游Task数量的文件，因此它并没有减少同时打开文件的数量。如果需要了解更多细节，可以阅读7.1节。
但是consolidateFiles的机制在Spark 0.8.1就引入了，到Spark 1.2.0还是没有稳定下来。从源码实现的角度看，实现源码是非常简单的，但是由于涉及本地文件系统等限制，这个策略可能会带来各种各样的问题。由于它并没有减少同时打开文件的数量，因此不能减少由文件句柄带来的内存消耗。如果Shuffle的文件数量非常大，那么是否打开这个选项最好还是通过实际测试后再决定。

7，spark.shuffle.compress和spark.shuffle.spill.compress

这两个参数的默认配置都是true。spark.shuffle.compress和spark.shuffle.spill.compress都是用来设置Shuffle过程中是否对Shuffle数据进行压缩。其中，前者针对最终写入本地文件系统的输出文件；后者针对在处理过程需要写入到外部存储的中间数据，即针对最终的shuffle输出文件。
（1）设置spark.shuffle.compress
如果下游的Task通过网络获取上游Shuffle Map Task的结果的网络IO成为瓶颈，那么就需要考虑将它设置为true：通过压缩数据来减少网络IO。由于上游Shuffle Map Task和下游的Task现阶段是不会并行处理的，即上游Shuffle Map Task处理完成后，下游的Task才会开始执行。那么需要压缩的时间消耗就是Shuffle Map Task压缩数据的时间+网络传输的时间+下游Task解压的时间；而不需要压缩的时间消耗仅仅是网络传输的时间。因此需要评估压缩解压时间带来的时间消耗和因为数据压缩带来的时间节省。如果网络成为瓶颈，比如集群普遍使用的是千兆网络，那么将这个选项设置为true可能更合理；如果计算是CPU密集型的，那么将这个选项设置为false可能更好。
（2）设置spark.shuffle.spill.compress
如果设置为true，代表处理的中间结果在spill到本地硬盘时都会进行压缩，在将中间结果取回进行merge的时候，要进行解压。因此要综合考虑CPU由于引入压缩、解压的消耗时间和Disk IO因为压缩带来的节省时间的比较。在Disk IO成为瓶颈的场景下，设置为true可能比较合适；如果本地硬盘是SSD，那么设置为false可能比较合适。

8，spark.reducer.maxMbInFlight

这个参数用于限制一个Reducer Task向其他的Executor请求Shuffle数据时所占用的最大内存数，尤其是如果网卡是千兆和千兆以下的网卡时。默认值是48MB。设置这个值需要综合考虑网卡带宽和内存。

文章来源：《Spark技术内幕：深入解析Spark内核架构设计与实现原理》作者：张安站

文章内容仅供学习交流，如有侵犯，联系删除哦！

你可能感兴趣的:(大数据,Hadoop,Spark,spark,大数据,hadoop)

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
Linux（centos7）部署hive 灯下夜无眠 Linux linux hive 运维 dbeaver hive客户端
前提环境：已部署完hadoop(HDFS、MapReduce、YARN)1、安装元数据服务MySQL切换root用户#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysqL-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch.
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
hadoop配置免密登录我干开发那十年 ssh 服务器 linux
1.生成密钥ssh-keygen-trsa所有节点都要执行2.所有节点执行ssh-copy-id-i~/.ssh/id_rsa.pub用户名1@主机名1ssh-copy-id-i~/.ssh/id_rsa.pub用户名2@主机名2ssh-copy-id-i~/.ssh/id_rsa.pub用户名3@主机名33.目录授权chmod700~/.sshchmod600~/.ssh/authorized_
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
大数据毕设图像识别-人脸识别与疲劳检测 - python opencv fawubio_A python 算法
文章目录0前言1课题背景2Dlib人脸识别2.1简介2.2Dlib优点2.3相关代码2.4人脸数据库2.5人脸录入加识别效果3疲劳检测算法3.1眼睛检测算法3.2打哈欠检测算法3.3点头检测算法4PyQt54.1简介4.2相关界面代码0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师
大数据开发（Hive面试真题-卷二） Key-Key 大数据 hive 面试
大数据开发（Hive面试真题）1、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？2、说下Hive是什么？跟数据仓库区别？3、Hive架构？4、Hive数据倾斜以及解决方案？5、Hive如果不用参数调优，在map和reduce端应该做什么？6、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？7、Hive分区和分桶的区别？8、Hive的执行流程？9、Hive
【大数据面试题】014 Flink CDC 用过吗，请简要描述 Jiweilai1 一天一道面试题 flink 大数据面试 flink cdc
一步一个脚印，一天一道面试题。FlinkCDC的诞生背景FlinkCDC的全称是ChangeDataCapture（变更数据捕获）每一项技术的诞生都是为了解决某个问题，某个痛点。而FlinkCDC的诞生就是为了解决在读取，监控MySQL这样的数据库时，不会因为读取数据库，对数据库本身造成压力，影响性能。同时，保证了数据源的准确，正确。FlinkCDC原理方式一：通过查询来获取更新的数据。如查询数据
【笔记】HDFS基础笔记哇咔咔哇咔 Hadoop hdfs 笔记 hadoop 大数据 ubuntu
启动hadoop命令（未配环境变量）：进入hadoop安装目录输入./sbin/start-dfs.sh已配环境变量：start-dfs.sh关闭hadoop命令：stop-dfs.sh启动完成后，可以通过命令jps来判断是否成功启动，若成功启动则会列出如下进程:"NameNode"、"DataNode"和"SecondaryNameNode"三种Shell命令方式：1.hadoopfs2.had
【笔记】Linux常用命令哇咔咔哇咔 Linux 笔记 linux 运维 ubuntu
命令含义cd/home/hadoop#把/home/hadoop设置为当前目录cd..#返回上一级目录cd~#进入到当前Linux系统登录用户的主目录（或主文件夹）。在Linux系统中，~代表的是用户的主文件夹，即“/home/用户名”这个目录，如果当前登录用户名为hadoop，则~就代表“/home/hadoop/”这个目录ls#查看当前目录中的文件ls-l#查看文件和目录的权限信息touch文
【大数据】Flink SQL 语法篇（五）：Regular Join、Interval Join G皮T #Flink SQL 大数据 flink sql Regular Join Interval Join 双流Join
《FlinkSQL语法篇》系列，共包含以下10篇文章：FlinkSQL语法篇（一）：CREATEFlinkSQL语法篇（二）：WITH、SELECT&WHERE、SELECTDISTINCTFlinkSQL语法篇（三）：窗口聚合（TUMBLE、HOP、SESSION、CUMULATE）FlinkSQL语法篇（四）：Group聚合、Over聚合FlinkSQL语法篇（五）：RegularJoin、I
有一点动心段duan
《有一点动心》是6月4日新上映的一部影片，在香山国际影城的支持下，与水姐观影群的伙伴们共同观看了这部影片。随着社会意识形态的不断变化，人们对感情的态度，也呈现出多元化的状态。爱情，自从人类诞生之日起，不论朝代如何更替变迁，都是生命的一大核心主题，演绎出无数个动人的故事，让经历者体验其中，让倾听者无比动容。从调查出来的大数据来看，适龄人群的不婚比例，是空前高的一个数字，越来越多的适婚人士，加入了不婚
Spark Q&A 耐心的农夫2020
Q:在读取文件的时候，如何忽略空gzip文件?A:从Spark2.1开始，你可以通过启用spark.sql.files.ignoreCorruptFiles选项来忽略损毁的文件。可以将下面的选项添加到你的spark-submit或者pyspark命令中。--confspark.sql.files.ignoreCorruptFiles=true另外spark支持的选项可以通过在spark-shell
大数据开发（Kafka面试真题-卷一） Key-Key 大数据 kafka 面试
大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？3、解释以下ApacheKafka的作用以及它与常见消息队列系统（如RabbitMQ）之间的区别？4、如何使用ApacheKafka来实现实时数据流处理？5、Flinkcheckpoint和Kafkaoffset的关联是什么？
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
挑战杯大数据商城人流数据分析与可视化 - python 大数据分析 laafeer python
0前言优质竞赛项目系列，今天要分享的是基于大数据的基站数据分析与可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate课题背景随着当今个人手机终端的普及，出行群体中手机拥有率和使用率已达到相当高的比例，手
Java开发从入门到精通（七）：Java的面向对象编程OOP：常用API HACKNOE Java开发从入门到精通 java intellij-idea
Java大数据开发和安全开发（一）Java的常用API1.1Object类1.1toString1.1equals方法1.1对象克隆clone1.1Objects类1.1包装类1.1StringBuilder1.1StringBuffer1.1StringJoiner1.1Math、System、Runtime1.1BigDecimal1.1传统时间：Date日期类、SimpleDateForma
linux安装单机版spark3.5.0 爱上雪茄大数据 JAVA知识 spark 大数据分布式
一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0三、spark环境变量配置exportJAVA_HOME=/usr/local/jdk1.8.0_391exportJRE_HOME=/usr/local/jdk1.8.0_391/jr
Hadoop简介程序员小郭同学 hadoop
简介大数据简介概述大数据的说法从出现到现在，也经历了十多年时间的发展。而在这十几年的发展过程中，非常多的机构、组织都试图对大数据做出过定义，例如：研究机构Gartner给出了这样的定义："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
数大数据时代的关键：融合数据治理与AI为企业增值_光点科技光点数据治理人工智能大数据科技
在数据驱动的今天，企业不能再将数据治理和人工智能（AI）视作孤立的实体。它们之间的协同作用已经成为推动企业增长的强大引擎。本文将探索数据治理与AI如何相互作用，形成闭环，以及企业如何利用这一关系来提升数据价值，实现数字化转型。数据治理与AI的依存共生数据治理是整理和优化数据的过程，以确保其质量、安全性和可用性。而AI，尤其是大模型，是解析和应用这些数据的工具。没有高质量的数据治理，AI无法发挥其最
2024年阿里云大数据acp认证条件腾科教育阿里云大数据云计算
阿里云大数据acp认证考试没有条件，在校大学生、应届毕业生、在职员工均可报考。acp认证考试预约流程1.账户注册，认证人员登录阿里云认证全球培训中心网站，在页面右上角点击“立即注册”2.选择专业。账户注册成功会自动返回到网站首页，认证人员根据实际需要进行报考，3,认证购买。进入专业介绍页后点击“购买认证"跳转到认证购买页，点击对应专业认证名称再点击“立即购买”，确认订单后完成支付即可。4.考试预约
Redis 的 RDB 和 AOF 龙大. Redis redis 数据库
1.RDB(RedisDatabase)定义:RDB是Redis的持久化机制之一，它会在指定的时间间隔内生成数据集的时间点快照。工作原理:当RDB持久化被触发时，Redis会创建一个子进程来执行实际的数据保存工作，父进程则继续处理客户端请求。子进程将内存中的数据写入到一个临时RDB文件中，完成后替换旧的RDB文件。优点:快速恢复大数据集。子进程创建的方式减少了主进程的内存消耗。RDB文件是一个紧凑
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite