flink - operator - KeyedStream - KeyedProcessFunction

描述
  1. 数据在KeyBy后对key按hash结果进入对应的KeyedProcessFunction subtask
  2. 同个key的数据的所有数据都会进入同一个KeyedProcessFunction subtask
  3. 不同key的数据也有可能进入同一个KeyedProcessFunction subtask
  4. 同一个KeyedProcessFunction subtask中所有数据共享普通变量
  5. 同一个KeyedProcessFunction subtask中同一个key的数据共享状态变量,不同key的数据不共享状态变量
  6. 不同KeyedProcessFunction subtask中所有变量均不共享
  7. 提供了RuntimeContext的使用
  8. 提供了Watermark和ProcessingTime的访问
  9. 提供了timerService的使用,当数据即将触发定时器时,先执行processElement函数,再执行onTimer函数
  10. 提供了侧输出流的使用
输入

KeyedStream

输出

DataStream

KeyedProcessFunction
声明一个自定义KeyedProcessFunction类
  class MyProcessFunction(自定义类参数) extends KeyedProcessFunction[key数据类型, input数据类型, output数据类型] {
  // 必须实现processElement方法
      override def processElement(value: input数据类型, ctx: KeyedProcessFunction[key数据类型, input数据类型, output数据类型]#Context, out: Collector[output数据类型]): Unit = {
        ...
        }
}

// 使用
dataStream
.keyBy(...)
.process(new MyProcessFunction(...))


// 在processFunction中使用状态一个valueState
lazy val myState: ValueState[Long] = getRuntimeContext.getState(
      new ValueStateDescriptor[Long]("myState", classOf[Long])
    )
    
// 在processFunction中使用timerService计时器功能
    // 声明一个基于eventTime的计时器, 当该task中的数据eventTime到达触发时间戳时,就会调用onTimer方法,并清除该计时器。 ctx在processElement方法和onTimer方法中均能使用
ctx.timerService().registerEventTimeTimer(触发时间戳,单位毫秒)
    // 声明一个基于processTime的计时器,当processTime到达触发时间戳时,该task会调用onTimer方法,并清除计时器
ctx.timerService().registerProcessingTimeTimer(触发时间戳,单位毫秒)
// 手动删除一个eventTime计时器,需要指定计时器对应的时间戳
ctx.timerService().deleteEventTimeTimer(计时器触发时间戳)
// 手动删除一个processTime计时器,需要指定计时器对应的时间戳
ctx.timerService().deleteProcessingTimeTimer(计时器触发时间戳)

// 实现onTimer方法
override def onTimer(timestamp: Long, ctx: KeyedProcessFunction[key数据类型, input数据类型, output数据类型]#OnTimerContext, out: Collector[output数据类型]): Unit = {
  ...
  //其中timestamp为声明计时器时指定的eventTime或processTime
}

// 访问task中的watermark,watermark与eventTime对齐
ctx.timerService().currentWatermark()
// 访问task中的processTime
ctx.timerService().currentProcessingTime()
// 使用侧输出流
ctx.output(new OutputTag[output数据类型]("定义测输出流id"), output value)

你可能感兴趣的:(flink - operator - KeyedStream - KeyedProcessFunction)