关于ETL的BackgroundScheduler同步方案和misfire_grace_time

如果做ETL避免脏数据,那么不可以允许同一个job有并行允许的情况,也就是说max_instance参数始终设置成1。

这时候执行ETL任务,会有以下情况。

1 任务不超时。正常执行

2 任务超时。如果下一个时间点上一次任务还没有执行完,那么这个时间点的任务会被直接丢弃。

比如:间隔时间30秒,任务执行周期40秒,开始时间8:00:00

那么 8:00:00~8:00:40正常执行,8:00:30的任务被丢弃,下次执行时间是8:01:00

 那么能否采用补发策略misfire_grace_time呢,答案是否定。

因为:

misfire_grace_time=30 的计时起点是‌任务理论触发的时间点‌(即预设的执行时间)

misfire_grace_time 的触发条件

  • 仅适用于‌任务未开始执行‌的情况(如线程池满、系统卡顿导致延迟触发,比如内存使用率过高)
  • 若前一个任务实例‌仍在执行中‌,新触发会被视为并发冲突而非延迟触发

综上,如果需要排队发送,也就是说如果超时立即发送,那么请选用Queue,kafka等队列

 

 

你可能感兴趣的:(etl,数据仓库)