【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

以如下代码为例（SocketInputDStream）：

Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据的流转需要关注如下几个问题：

1. 数据存储到什么位置了

2. 数据存储的结构如何？

3. 数据什么时候被读取

4. 读取到的数据(batch interval)如何转换为RDD

1. SocketReceiver#receive

  /** Create a socket connection and receive data until receiver is stopped */
  def receive() {
    var socket: Socket = null
    try {
      logInfo("Connecting to " + host + ":" + port)
      socket = new Socket(host, port)
      logInfo("Connected to " + host + ":" + port)
      val iterator = bytesToObjects(socket.getInputStream())
      while(!isStopped && iterator.hasNext) {
        store(iterator.next)
      }
      logInfo("Stopped receiving")
      restart("Retrying connecting to " + host + ":" + port)
    } catch {
      case e: java.net.ConnectException =>
        restart("Error connecting to " + host + ":" + port, e)
      case t: Throwable =>
        restart("Error receiving data", t)
    } finally {
      if (socket != null) {
        socket.close()
        logInfo("Closed socket to " + host + ":" + port)
      }
    }
  }

2. SocketReceiver#receive=>SocketReceiver#store

  /**
   * Store a single item of received data to Spark's memory.
   * These single items will be aggregated together into data blocks before
   * being pushed into Spark's memory.
   */
  def store(dataItem: T) {
    executor.pushSingle(dataItem)
  }

数据存储作为Executor功能之一，store方法调用了executor中的pushSingle操作，此时的Single可以理解为一次数据读取，而dataItem就是一次读取的数据对象

3. SocketReceiver#store=>executor.pushSingle（ReceiverSupervisorImpl.pushSingle）

  /** Push a single record of received data into block generator. */
  def pushSingle(data: Any) {
    blockGenerator.addData(data)
  }

数据放入到了blockGenerator数据结构中了，blockGenerator，类型为BlockGenerator，顾名思义是一个block生成器，所谓的block生成器，是指Spark Streaming每隔一段时间(默认200毫秒, private val blockInterval = conf.getLong("spark.streaming.blockInterval", 200)）将接收到的数据合并成一个block，然后将这个block写入到BlockManager，继续沿着个思路分析

4. executor.pushSingle=>BlockGenerator.addData

  /**
   * Push a single data item into the buffer. All received data items
   * will be periodically pushed into BlockManager.
   */
  def addData (data: Any): Unit = synchronized {
    waitToPush() ///通过阻塞控制Push的速度
    currentBuffer += data，将数据追加到currentBuffer中
  }

当数据写入到currentBuffer中之后，似乎线索已经断了。事实上是BlockGenerator内部开启的两个线程（BlockIntervalTimer和BlockPushingThread）在背后继续处理currentBuffer

BlockIntervalTimer默认每200毫秒执行一次updateCurrentBufferer，该函数的功能是将类型为ArrayBuffer的currentBuffer合并成一个小的Block

  private val blockInterval = conf.getLong("spark.streaming.blockInterval", 200)
  private val blockIntervalTimer =
    new RecurringTimer(clock, blockInterval, updateCurrentBuffer, "BlockGenerator")

BlockPushingThread是通过循环调用keepPushingBlocks将BlockIntervalTimer创建的各个Block写入到BlockManager中,

private val blockPushingThread = new Thread() { override def run() { keepPushingBlocks() } }

上面说到的两个线程的同步是通过ArrayBlockQueue实现的

  private val blockQueueSize = conf.getInt("spark.streaming.blockQueueSize", 10)
  private val blocksForPushing = new ArrayBlockingQueue[Block](blockQueueSize)

5. BlockGenerator#updateCurrentBuffer

updateCurrentBuffer由BlockIntervalTimer线程执行

  /** Change the buffer to which single records are added to. */
  private def updateCurrentBuffer(time: Long): Unit = synchronized {
    try {
      val newBlockBuffer = currentBuffer 
      currentBuffer = new ArrayBuffer[Any] //这两句对currentBuffere这样的操作，是否有线程安全问题？没有，因为currentBuffer已经标注为@volatile类型的变量
      if (newBlockBuffer.size > 0) {
        val blockId = StreamBlockId(receiverId, time - blockInterval) //构造StreamBlockId
        val newBlock = new Block(blockId, newBlockBuffer) //创建出一个Block
        listener.onGenerateBlock(blockId) //通知谁？空实现，listener是作为BlockGenerator的构造函数传入的，这是一个所有通知时间的空实现
        blocksForPushing.put(newBlock)  //添加到阻塞队列中，等待BlockPushingThread读取
        logDebug("Last element in " + blockId + " is " + newBlockBuffer.last)
      }
    } catch {
      case ie: InterruptedException =>
        logInfo("Block updating timer thread was interrupted")
      case e: Exception =>
        reportError("Error in block updating thread", e)
    }
  }

6. BlockGenerator#keepPushingBlocks

keepPushingBlocks由BlockPushingThread执行

  /** Keep pushing blocks to the BlockManager. */
  private def keepPushingBlocks() {
    logInfo("Started block pushing thread")
    try {
      while(!stopped) {
        //poll是阻塞队列的非阻塞方法，但是如果队列中没有元素，则等待100ms，poll是取一个元素操作
        Option(blocksForPushing.poll(100, TimeUnit.MILLISECONDS)) match {
          case Some(block) => pushBlock(block)
          case None =>
        }
      }
      // Push out the blocks that are still left
      logInfo("Pushing out the last " + blocksForPushing.size() + " blocks")
      while (!blocksForPushing.isEmpty) {
        logDebug("Getting block ")
        val block = blocksForPushing.take()
        pushBlock(block)
        logInfo("Blocks left to push " + blocksForPushing.size())
      }
      logInfo("Stopped block pushing thread")
    } catch {
      case ie: InterruptedException =>
        logInfo("Block pushing thread was interrupted")
      case e: Exception =>
        reportError("Error in block pushing thread", e)
    }
  }

7. BlockGenerator#pushBlock

这个方法是针对一个Block进行push，而不是一次从队列中把所有的Block取出来，一次进行push。

  private def pushBlock(block: Block) {
    listener.onPushBlock(block.id, block.buffer)
    logInfo("Pushed block " + block.id)
  }

8. BlockGeneratorListener#onPushBlock

pushBlock是通过Observer模式，通知listener，这个liestener是BlockGenerator的构造函数传入的(其实是作为内部类，在构造时创建的实例）

  /** Divides received data records into data blocks for pushing in BlockManager. */
  private val blockGenerator = new BlockGenerator(new BlockGeneratorListener {
    def onAddData(data: Any, metadata: Any): Unit = { }

    def onGenerateBlock(blockId: StreamBlockId): Unit = { }

    def onError(message: String, throwable: Throwable) {
      reportError(message, throwable)
    }

    def onPushBlock(blockId: StreamBlockId, arrayBuffer: ArrayBuffer[_]) {
      pushArrayBuffer(arrayBuffer, None, Some(blockId))
    }
  }, streamId, env.conf)

9. BlockGenerator#pushArrayBuffer

  /** Store an ArrayBuffer of received data as a data block into Spark's memory. */
  def pushArrayBuffer(
      arrayBuffer: ArrayBuffer[_],
      metadataOption: Option[Any],
      blockIdOption: Option[StreamBlockId]
    ) {
    pushAndReportBlock(ArrayBufferBlock(arrayBuffer), metadataOption, blockIdOption)
  }

10. BlockGenerator#pushAndReportBlock

  /** Store block and report it to driver */
  def pushAndReportBlock(
      receivedBlock: ReceivedBlock,
      metadataOption: Option[Any],
      blockIdOption: Option[StreamBlockId]
    ) {
    val blockId = blockIdOption.getOrElse(nextBlockId)
    val numRecords = receivedBlock match {
      case ArrayBufferBlock(arrayBuffer) => arrayBuffer.size
      case _ => -1
    }

    val time = System.currentTimeMillis
    val blockStoreResult = receivedBlockHandler.storeBlock(blockId, receivedBlock)
    logDebug(s"Pushed block $blockId in ${(System.currentTimeMillis - time)} ms")

    val blockInfo = ReceivedBlockInfo(streamId, numRecords, blockStoreResult)
    val future = trackerActor.ask(AddBlock(blockInfo))(askTimeout)
    Await.result(future, askTimeout)
    logDebug(s"Reported block $blockId")
  }

pushAndReportBlock做了两件事，一是Store Block，而是想Tracker汇报有Block加入

10.1 receivedBlockHandler.storeBlock（BlockManagerBasedBlockHandler#storeBlock）

  def storeBlock(blockId: StreamBlockId, block: ReceivedBlock): ReceivedBlockStoreResult = {
    val putResult: Seq[(BlockId, BlockStatus)] = block match {
      case ArrayBufferBlock(arrayBuffer) =>
        blockManager.putIterator(blockId, arrayBuffer.iterator, storageLevel, tellMaster = true)
      case IteratorBlock(iterator) =>
        blockManager.putIterator(blockId, iterator, storageLevel, tellMaster = true)
      case ByteBufferBlock(byteBuffer) =>
        blockManager.putBytes(blockId, byteBuffer, storageLevel, tellMaster = true)
      case o =>
        throw new SparkException(
          s"Could not store $blockId to block manager, unexpected block type ${o.getClass.getName}")
    }
    if (!putResult.map { _._1 }.contains(blockId)) {
      throw new SparkException(
        s"Could not store $blockId to block manager with storage level $storageLevel")
    }
    BlockManagerBasedStoreResult(blockId)
  }

其中，blockManager是BlockManager类型的变量，定义于org.apache.spark.storage包中，实现向BlockManager写入数据，具体调用putIterator，putBytes，这是Spark存储子系统的内容，此处不赘述，重要的是，在此处写入进了BlockManager

10.2 ReceiverTracker#AddBlock

通过下面两个语句，将写入到BlockManager的信息汇报给TrackActor，这是一个进程间的同步调用(ask语法）

    val blockInfo = ReceivedBlockInfo(streamId, numRecords, blockStoreResult)
    val future = trackerActor.ask(AddBlock(blockInfo))(askTimeout)
    Await.result(future, askTimeout)

trackerActor对应的实体是ReceiverTracker，AddBlock消息将触发ReceiverTracker.addBlock,进而调用ReceivedBlockTracker.addBlock

  /** Add new blocks for the given stream */
  private def addBlock(receivedBlockInfo: ReceivedBlockInfo): Boolean = {
    receivedBlockTracker.addBlock(receivedBlockInfo)
  }

11. ReceivedBlockTracker.addBlock

  /** Add received block. This event will get written to the write ahead log (if enabled). */
  def addBlock(receivedBlockInfo: ReceivedBlockInfo): Boolean = synchronized {
    try {
      writeToLog(BlockAdditionEvent(receivedBlockInfo))//写WAL
      getReceivedBlockQueue(receivedBlockInfo.streamId) += receivedBlockInfo //getReceivedBlockQueue从Map<streamId,streamReceivedBlockQueue>中获取相应的streamReceivedBlockQueue
      logDebug(s"Stream ${receivedBlockInfo.streamId} received " +
        s"block ${receivedBlockInfo.blockStoreResult.blockId}")
      true
    } catch {
      case e: Exception =>
        logError(s"Error adding block $receivedBlockInfo", e)
        false
    }
  }

你可能感兴趣的:(Stream)

Flink算子通用状态应用测试样例公子乂 flink java servlet
Flink算子通用状态应用测试样例1.获取Flink执行环境finalStreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);2.创建数据源，生成随机数据DataStream>source=env.addSource(newSourceFunct
解析XML文件的几种方式？人生在勤，不索何获 xml
在Java中解析XML文件可以通过多种方式完成，其中最常用的有DOM（DocumentObjectModel）、SAX（SimpleAPIforXML）和StAX（StreamingAPIforXML）。每种方式有其特点和适用场景。1.DOM解析DOM解析是一种将整个XML文档加载到内存中，构造成一个树形结构，然后你可以很方便地访问任何数据节点的方法。这种方法适用于需要频繁读写操作的场景。impo
java-PDF与图片互转（pdfbox）[添加批注后合成pdf] Jayin_chan 开发中碰到的问题 pdfbox pdf转图片 java
importjava.awt.image.BufferedImage;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.util.Date;importjava.util.Iterator;importjava.util.List;importjava.util.TreeSe
主流公链 - Solana 面向Web3，春暖花开一步步了解Web3 Solana 智能合约区块链 web3
探索Solana区块链：下一代高性能区块链平台1.Solana简介Solana是一个高性能的区块链平台（TPS能达到10W级别），旨在实现高吞吐量和低延迟的区块链交易处理。它采用了一系列创新技术，其中包括ProofofHistory(PoH)，TowerBFT共识机制、Turbine快速状态复制引擎和GulfStream时空数据传输协议，以解决传统区块链网络中的性能瓶颈问题。2.Solana的技术
总结近一年折腾的那些事情-致敬Frp神器 WarmSword 工具 http p2p tcp/ip
蓦然回首，发现中年的自己，假期的日常主要就是休息遛娃游玩，好久没有写一写博客了。自己近1年有一些自己闲暇的时间的时候，其实也在折腾一些事情。gohls折腾的事情，主要是娱乐好玩工具性的一些东西，比如抄了一下gohls这个项目GitHub-shimberger/gohls:Aserverthatexposesadirectoryforvideostreamingviawebinterface，在家里
nginx upstream server主动健康监测模块添加https检测功能【上】码农心语 nginx学习 c++开发 LINUX nginx https 运维健康检测 upstream proxy
1缘起前面的《nginxupstreamserver主动健康检测模块ngx_http_upstream_check_module使用和源码分析》系列已经分析了ngx_http_upstream_check_module的实现原理，并且在借助这个模块的框架实现了一个udp健康检测的新功能。但是ngx_http_upstream_check_module还缺乏基于https监测上游服务器健康状
Reviewing a fastq_mergepairs report to check for problems 信息搬运代号北极能
信息来源https://www.drive5.com/usearch/manual/merge_report.htmlBelowisanexamplereportproducedbythe-reportoptionoffastq_mergepairs.Thisinformationisalsoshownontheterminal(standarderroroutputstream).Theopti
添加视频AVPacket到队列中张俊峰0613
视频解码流程创建C++类-JfVideo，保存Video相关参数：JfVideo.hclassJfVideo{public:intstreamIndex=-1;AVCodecContext*avCodecContext=NULL;AVCodecParameters*codecpar=NULL;JfQueue*queue=NULL;JfPlayStatus*playStatus=NULL;JfCal
C++ 友元腾扬集团驻吉吉国大使 c++开发语言
友元提供了一种突破封装的方式，有时提供了便利。但是友元会增加耦合度，破坏了封装，所以友元不宜多用。友元分为：友元函数和友元类1.友元函数问题：现在尝试去重载operator>同理。classDate{public:Date(intyear,intmonth,intday):_year(year),_month(month),_day(day){}//d1d1.operator>(istream&_
Flink 批作业消费kafka wending-Y Flink 入门到实践 flink kafka 大数据
文章目录示例代码原理总是kafka数据源可以是有界数据源，也可以是无界数据源示例代码publicstaticvoidmain(String[]args){StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism
TCP协议的粘包问题&解决方式咖啡加剁椒⑥ 软件测试 tcp/ip 网络协议网络功能测试软件测试自动化测试程序人生
粘包问题首先说明一点，TCP有粘包问题，UDP没有粘包问题。发送端可以是1KB地发送数据，而接收端的应用程序可以2KB地提走数据，当然也有可能一次提走3K或6K数据，或者一次只提走几个字节的数据，也就是说，应用程序所看到的数据是一个整体，或说是一个流（stream），一条消息有多少字节对应用程序是不可见的，因此TCP协议是面向流的协议，这也是容易出现粘包问题的原因。而UDP是面向消息的协议，每个U
由InputStream.available()引发的偶现bug eduiH 踩坑记录 java 面试 spring boot
案情经过需求是通过Feign下载一个文件，然后将下载接口得到的InputStream文件转成MultipartFile类型然后再调另外一个接口。从Feign返回的InputStream中读取文件流转换成MultipartFile类型过程中会涉及到将InputStream转成OutputStream的操作。由于懒得找所以直接使用了前辈写的工具类，也懒得看实现细节，先把功能实现其他再说。代码大概是这样
FFmpeg-- c++实现：音频流aac和视频流h264封装八月的雨季997 FFmpeg ffmpeg c++音视频
文章目录流程api核心代码muxer.hmuxer.cppaac和h264封装为视频流，封装为c++的Muxter类流程分配视频文件上下文intInit(constchar*url);创建流，赋值给视频的音频流和视频流intAddStream(AVCodecContext*codec_ctx);写视频流的headintSendHeader();写视频流的packet，需要转换packet的pts和
pyflink1.18.0 报错 TypeError: cannot pickle ‘_thread.lock‘ object Thomas2143 总结 pyflink
完整报错Traceback(mostrecentcalllast):File"/Users//1.py",line851,inds1=my_datastream.key_by(lambdax:x[0]).process(MyProcessFunction())#返回元组即:f0f1f2三列File"/Users/thomas990p/bigdataSoft/minicondaarm/minicon
【2024第一期CANN训练营】3、AscendCL运行时管理一条大蟒蛇6666 2024·CANN训练营第一季 CANN AscendCL AI
文章目录【2024第一期CANN训练营】3、AscendCL运行时管理1.初始化与去初始化2.资源申请与释放2.1申请流程2.2释放流程2.3运行模式（可选）3.数据传输3.1接口调用流程3.2主要数据传输场景1.Host内的数据传输2.从Host到Device的数据传输3.从Device到Host的数据传输4.一个Device内的数据传输5.两个Device间的数据传输4.Stream管理4.1
深入理解ngx_http_upstream_vnswrr_module负载均衡模块码农心语 nginx学习 LINUX c++开发 http 负载均衡网络协议 swrr vnswrr nginx
目录1.引言2.启用vnswrr负载均衡模块3.源码剖析3.1配置指令分析3.2负载均衡算法配置初始化3.3负载均衡请求上下文的初始化3.4获取peer1.引言之前有讨论了nginx的swrr算法的两个问题，并引出了阿里tengine的vnswrr算法如何来克服swrr的问题。本文通过源码层面对ngx_http_upstream_vnswrr_module模块进行分析，来深入理解vnswrr负
Java 8中 lambda表达式、Stream API的常见用法 xiaolong_gogo java 开发语言 java-ee
1、取出集合中的某个字段：//拿到车辆idsListcarIds=parkCarInDbList.stream().map(ParkCar::getId).collect(Collectors.toList());2、集合直接进行遍历然后进行相关操作：Listcars=carService.getListByCarId(carIds);cars.forEach(car->{Stringplate=
flink: 自定义表函数的用法 amadeus_liu2 flink flink python 大数据
packagecn.edu.tju.demo3;importorg.apache.flink.api.common.functions.MapFunction;importorg.apache.flink.api.java.tuple.Tuple2;importorg.apache.flink.streaming.api.datastream.DataStream;importorg.apache
flink:自定义函数的简单用法 amadeus_liu2 flink flink 大数据
packagecn.edu.tju.demo3;importorg.apache.flink.api.common.functions.MapFunction;importorg.apache.flink.streaming.api.datastream.DataStream;importorg.apache.flink.streaming.api.datastream.SingleOutputS
FFmpeg将视频包AVPacket通过视频流方式写入本地文件林鸿群 ffmpeg 音视频
1.写视频头voidwriteVideoHeader(constchar*videoFileName){intr=avformat_alloc_output_context2(&pFormatCtx,nullptr,nullptr,videoFileName);if(rstreams[0]->codecpar->width=1280;pFormatCtx->streams[0]->codecpar
Flink异步io关联Hbase //承续缘_纪录片 #Flink flink hbase 大数据
主程序publicstaticvoidmain(String[]args)throwsException{//1.获取流执行环境StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);SimpleDateFormatformatter=newSi
多人音视频实时通讯架构从零开始学习人工智能音视频架构
直播中的协议与格式在直播系统中，协议和格式的选择对于传输效率、画面质量和用户体验都至关重要。以下是直播中常见的协议与格式：协议RTSP(RealTimeStreamingProtocol)RTSP是一个网络流媒体协议，常用于视频监控和IPTV等场景。它本身并不传输数据，而是充当媒体服务器与客户端之间的通信协议。RTSP支持TCP和UDP传输，通常使用RTP（Real-timeTransportPr
3.14 网络编程寒蝉641 tcp/ip udp
#include#defineSER_PORT8888#defineSER_IP"192.168.117.71"intmain(intargc,constchar*argv[]){//创建客户端intcfd=socket(AF_INET,SOCK_STREAM,0);if(cfd==-1){perror("socketerror");return-1;}printf("scoketsuccessc
nginx配置缓存静态资源 pxzsky nginx 缓存运维
目的：把从其他主机访问的前端静态资源，缓存到本地，降低网络通讯，提高性能。http{......#2024-03-08upstreamh5_server{server127.0.0.1:80;}#2024-03-08nginx增加缓存静态资源到本机proxy_buffer_size16k;proxy_buffers432k;proxy_busy_buffers_size96k;proxy_temp
FFmpeg封装函数avformat_open_input() 肖爱Kun RTSP网络视屏协议 c++
FFmpeg在调用avformat_open_input()之后，可能码流信息不够完整，可以使用avformat_find_stream_info()获取更多的码流信息。比如获取视频帧率、视频宽高，重新计算最大分析时长，打开解码器解码获取codec数据。函数原型如下：intavformat_find_stream_info(AVFormatContext*ic,AVDictionary**opti
第三百九十七回 talk_8 一起Talk Flutter吧移动开发Flutter
文章目录概念介绍使用方法示例代码我们在上一章回中介绍了通道相关的内容，本章回中将介绍StreamProvider组件.闲话休提，让我们一起TalkFlutter吧。概念介绍在Flutter中Stream是经常使用的组件，对该组件的监听可voidmain(){///让状态栏和程序的appBar融为一体构成沉浸式效果,android有效果，需要IOS是否有效果///SystemChrome这个类及其方
【Java】读取手机文件名称 LI耳 Java日记 java 智能手机开发语言
首先，确保你已经连接了你的手机并已启用USB调试模式。然后，你需要使用AndroidDebugBridge（ADB）工具来获取手机文件列表。以下是一个简单的Java代码片段，使用ProcessBuilder调用ADB命令来获取文件列表：importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamRe
【Java】微信企业付款报错：java.io.IOException: toDerInputStream rejects tag type 45 李维山 Java
原因是证书格式问题，之前用PHP做一直用.pem格式的证书，看了官方文档才知道，其他语言大多用.p12格式的证书：更换为.p12格式证书，不报错了。
C#--StreamWriter和StreamReader对象及常用函数海绵波波107 C#c#数据库服务器
目录StreamReaderReadLine()Split（）StreamWriterWriteLine（）Flush()Close()StreamReaderStreamReader是C#中用于从流（如文件、内存流等）中读取文本数据的类。它提供了多种方法来读取不同类型的数据。以下是一些StreamReader类的常用方法：StreamReader(Stream):构造函数，创建一个新的Strea
Java异常我喜欢你呀！ java 开发语言
解决精度问题BigDecimalBigDecimala=BigDecimal.valueOf(?)divide除法收集Stream流收集Stream流的含义：就是把Stream流操作后的结果数据转回到集合或者数组中去。（为什么？）Stream流，是一种方便操作集合/数组的一种手段集合/数组，才是最终的目的，因为你操作完的数据需要传到其他方法中使用，而其他方法中会用集合或者数组。具体方式查手册，下面
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n