隔壁寝室老吴

Beam2.61.0版本消费kafka重复问题排查

1.问题出现过程

在测试环境测试flink的job的任务消费kafka的情况，通过往job任务发送一条消息，然后flink web ui上消费出现了两条。然后通过重启JobManager和TaskManager后，任务从checkpoint恢复后就会出现重复消费。当任务不从checkpoint恢复的时候，任务不会出现重复消费的情况。由此可见是beam从checkpoint恢复的时候出现了重复消费的问题。

2.任务排查过程

由于我们beam使用的是FlinkRunner，所以Beam消费Kafka会基于Flink的Source的规范实现相关的Source。

Flink中的Source实现的几个重要的类：
    Source：工厂类负责实例化以下的几个组件
    SourceSplit：封装数据源的逻辑分片（如文件块、Kafka 分区区间）。
    SplitEnumerator：负责分片发现与分配逻辑。
    SourceReader：处理分片数据读取与反序列化。

在Beam中分别实现的Flink的KafkaSource是以下这几个类：

FlinkUnboundedSource
FlinkSourceSplit
FlinkSourceSplitEnumerator
FlinkSourceReaderBase <- FlinkUnboundedSourceReader

其中在Flink中Source算子的执行和SourceOpearator和SourceCoordinator这两个类有关，他们的执行顺序如下：

初始化阶段
- SourceCoordinator 优先启动：在 JobMaster（JobManager）启动时，SourceCoordinator 作为独立组件被创建，并负责初始化 SplitEnumerator（分片枚举器）。
- SourceOperator 后续启动：在 TaskManager 上，每个并行任务实例（Task）启动时，会初始化 SourceOperator，并在其open()方法中创建 SourceReader（数据读取器）。
运行时协作
- 分片分配：SourceCoordinator 的 SplitEnumerator 通过 RPC 响应 SourceOperator 的分片请求（如AddSplitEvent），动态分配分片（Split）。
- 数据读取：SourceOperator 将分配到的分片交给内部的 SourceReader，通过pollNext()方法读取数据并发送到下游。

SourceOperator类逻辑

@Internal
public class SourceOperator extends AbstractStreamOperator
        implements OperatorEventHandler,
                PushingAsyncDataInput,
                TimestampsAndWatermarks.WatermarkUpdateListener {

    /** The state that holds the currently assigned splits. */
    // 状态存储当前被分配的分片信息
    private ListState readerState;
                    
    @Override
    public void open() throws Exception {
        // 初始化Reader操作
        initReader();

        // in the future when we this one is migrated to the "eager initialization" operator
        // (StreamOperatorV2), then we should evaluate this during operator construction.
        if (emitProgressiveWatermarks) {
            eventTimeLogic =
                    TimestampsAndWatermarks.createProgressiveEventTimeLogic(
                            watermarkStrategy,
                            sourceMetricGroup,
                            getProcessingTimeService(),
                            getExecutionConfig().getAutoWatermarkInterval());
        } else {
            eventTimeLogic =
                    TimestampsAndWatermarks.createNoOpEventTimeLogic(
                            watermarkStrategy, sourceMetricGroup);
        }

        // restore the state if necessary.
        // 从checkpoint状态中恢复出上一次被分配的分片信息
        final List splits = CollectionUtil.iterableToList(readerState.get());
        if (!splits.isEmpty()) {
            LOG.info("Restoring state for {} split(s) to reader.", splits.size());
            // 然后把分片信息添加到Reader中
            sourceReader.addSplits(splits);
        }

        // Register the reader to the coordinator.
        registerReader();

        sourceMetricGroup.idlingStarted();
        // Start the reader after registration, sending messages in start is allowed.
        sourceReader.start();

        eventTimeLogic.startPeriodicWatermarkEmits();
    }
    
    // SourceOperator处理算子的对应事件
    public void handleOperatorEvent(OperatorEvent event) {
        if (event instanceof WatermarkAlignmentEvent) {
            updateMaxDesiredWatermark((WatermarkAlignmentEvent) event);
            checkWatermarkAlignment();
            checkSplitWatermarkAlignment();
        } else if (event instanceof AddSplitEvent) {
            // 处理新增分片的事件：对应任务第一次消费，或者有心的分片增加了（对应到kafka中就是分区数增加了）
            handleAddSplitsEvent(((AddSplitEvent) event));
        } else if (event instanceof SourceEventWrapper) {
            sourceReader.handleSourceEvents(((SourceEventWrapper) event).getSourceEvent());
        } else if (event instanceof NoMoreSplitsEvent) {
            sourceReader.notifyNoMoreSplits();
        } else if (event instanceof IsProcessingBacklogEvent) {
            if (eventTimeLogic != null) {
                eventTimeLogic.emitImmediateWatermark(System.currentTimeMillis());
            }
            output.emitRecordAttributes(
                    new RecordAttributesBuilder(Collections.emptyList())
                            .setBacklog(((IsProcessingBacklogEvent) event).isProcessingBacklog())
                            .build());
        } else {
            throw new IllegalStateException("Received unexpected operator event " + event);
        }
    }
    
    private void handleAddSplitsEvent(AddSplitEvent event) {
        try {
            List newSplits = event.splits(splitSerializer);
            numSplits += newSplits.size();
            if (operatingMode == OperatingMode.OUTPUT_NOT_INITIALIZED) {
                // For splits arrived before the main output is initialized, store them into the
                // pending list. Outputs of these splits will be created once the main output is
                // ready.
                outputPendingSplits.addAll(newSplits);
            } else {
                // Create output directly for new splits if the main output is already initialized.
                createOutputForSplits(newSplits);
            }
            // 将新增的分片信息添加到reader中。
            sourceReader.addSplits(newSplits);
        } catch (IOException e) {
            throw new FlinkRuntimeException("Failed to deserialize the splits.", e);
        }
    }
}

以上可以看到在SourceOperator中，SourceReader新增分片的地方有两个：Open()函数中从checkpoint中恢复的和handleAddSplitsEvent()中添加的分片信息，然后继续看看sourceReader.addSplits(newSplits)中调用的是FlinkSourceReaderBase#addSplits(newSplits)方法。

由于Beam中kafka的FlinkSourceReader分别对应有界和无界，所以中间有一个抽象的类FlinkSourceReaderBase

FlinkSourceReaderBase类

public abstract class FlinkSourceReaderBase
    implements SourceReader> {
 
  // 这是一个队列，存储的是分片信息 
  private final Queue> sourceSplits = new ArrayDeque<>();
    
  @Override
  public void addSplits(List> splits) {
    checkExceptionAndMaybeThrow();
    LOG.info("Adding splits {}", splits);
    // 往队列中添加了分片信息
    sourceSplits.addAll(splits);
    waitingForSplitChangeFuture.get().complete(null);
  }
    
  protected final Optional createAndTrackNextReader() throws IOException {
    // 从队列中消费分片 
    FlinkSourceSplit sourceSplit = sourceSplits.poll();
    if (sourceSplit != null) {
      // 然后根据分片创建对应的Reader，进行消费Kafka的数据。
      Source.Reader reader = createReader(sourceSplit);
      ReaderAndOutput readerAndOutput = new ReaderAndOutput(sourceSplit.splitId(), reader, false);
      beamSourceReaders.put(sourceSplit.splitIndex(), readerAndOutput);
      return Optional.of(readerAndOutput);
    }
    return Optional.empty();
  }
}

所以看到以上的代码其实很清楚了，消费kafka重复很有可能是因为分片被重复添加导致的，由于在Kafka中KafkaConsumer在指定分区和Offset的情况下，是可以多个消费者在同一个消费者组中消费同一个分区的。

接下来使用arthas去监控sourceReader.addSplits(newSplits)的地方的调用情况：

// 监控SourceOperator#open()方法
watch org.apache.flink.util.CollectionUtil iterableToList '{params,returnObj,throwExp}'  -n 5  -x 3 

// 监控SourceOperator#handleAddSplitsEvent()方法
watch org.apache.flink.streaming.api.operators.SourceOperator handleAddSplitsEvent '{params,returnObj,throwExp}'  -n 5  -x 3

最终观察到这两个地方都被调用了，所以问题就是因为checkpoint恢复的时候添加了分片信息，而从SourceCoordinator中调用FlinkSourceSplitEnumerator()计算分片的地方又添加了一次导致最终kafka消费重复了。

FlinkSourceSplitEnumerator类

public class FlinkSourceSplitEnumerator
    implements SplitEnumerator, Map>>> {
    
  private static final Logger LOG = LoggerFactory.getLogger(FlinkSourceSplitEnumerator.class);
  private final SplitEnumeratorContext> context;
  private final Source beamSource;
  private final PipelineOptions pipelineOptions;
  private final int numSplits;
  private final Map>> pendingSplits;
  // 这里标识split计算是否被初始化过
  private boolean splitsInitialized;  
  
  public FlinkSourceSplitEnumerator(
      SplitEnumeratorContext> context,
      Source beamSource,
      PipelineOptions pipelineOptions,
      int numSplits) {
    this.context = context;
    this.beamSource = beamSource;
    this.pipelineOptions = pipelineOptions;
    this.numSplits = numSplits;
    this.pendingSplits = new HashMap<>(numSplits);
    // 这里看到永远都是false，所以无论有没有从checkpoint恢复过，这里都会执行过一次。 
    this.splitsInitialized = false;
  }
    
  @Override
  public void start() {
    context.callAsync(
        () -> {
          // 执行分片计算的操作，计算哪些kafka分区被分配给哪个并行度
          try {
            LOG.info("Starting source {}", beamSource);
            List> beamSplitSourceList = splitBeamSource();
            Map>> flinkSourceSplitsList = new HashMap<>();
            int i = 0;
            for (Source beamSplitSource : beamSplitSourceList) {
              int targetSubtask = i % context.currentParallelism();
              List> splitsForTask =
                  flinkSourceSplitsList.computeIfAbsent(
                      targetSubtask, ignored -> new ArrayList<>());
              splitsForTask.add(new FlinkSourceSplit<>(i, beamSplitSource));
              i++;
            }
            return flinkSourceSplitsList;
          } catch (Exception e) {
            throw new RuntimeException(e);
          }
        },
        (sourceSplits, error) -> {
          if (error != null) {
            throw new RuntimeException("Failed to start source enumerator.", error);
          } else {
            pendingSplits.putAll(sourceSplits);
            // 这里标识设置为true了 
            splitsInitialized = true;
            // 将分配好的分片信息通过rpc发送给SourceOpeartor，对应并行度的task取对应并行度的分片信息。
            sendPendingSplitsToSourceReaders();
          }
        });
  }
    
}

以上看到FlinkSourceSplitEnumerator被初始化的时候splitsInitialized被设置为false，然后接着看实例化FlinkSourceSplitEnumerator的FlinkSource中的逻辑。

public abstract class FlinkSource
    implements Source, Map>>> {
 
  // 这里是没有checkpoint的时候执行的 
  @Override
  public SplitEnumerator, Map>>>
      createEnumerator(SplitEnumeratorContext> enumContext) throws Exception {
    return new FlinkSourceSplitEnumerator<>(
        enumContext, beamSource, serializablePipelineOptions.get(), numSplits);
  }

  // 这里是从checkppoint中恢复的地方
  @Override
  public SplitEnumerator, Map>>>
      restoreEnumerator(
          SplitEnumeratorContext> enumContext,
          Map>> checkpoint)
          throws Exception {
    // 在这里实例化了FlinkSourceSplitEnumerator
    FlinkSourceSplitEnumerator enumerator =
        new FlinkSourceSplitEnumerator<>(
            enumContext, beamSource, serializablePipelineOptions.get(), numSplits);
    checkpoint.forEach(
        (subtaskId, splitsForSubtask) -> enumerator.addSplitsBack(splitsForSubtask, subtaskId));
    return enumerator;
  }
    
}

以上看到在实例化FlinkSourceSplitEnumerator的地方，只要是从checkpoint中恢复的时候，将标识splitsInitialized设置为true，那么就不会从checkpoint中恢复的时候，去重复计算和添加分片从而导致重复消费了。

3.问题解决

后来在Beam的2.64.0版本中，发现这个bug已经被修复了，FlinkSource中restoreEnumerator的地方已经加上了判断逻辑了。

public class FlinkSourceSplitEnumerator
    implements SplitEnumerator, Map>>> {

  @Override
  public SplitEnumerator, Map>>>
      restoreEnumerator(
          SplitEnumeratorContext> enumContext,
          Map>> checkpoint)
          throws Exception {
    // 这里将splitInitialized标识设置为了true
    SplitEnumerator, Map>>> enumerator =
        createEnumerator(enumContext, true);
    checkpoint.forEach(
        (subtaskId, splitsForSubtask) -> enumerator.addSplitsBack(splitsForSubtask, subtaskId));
    return enumerator;
  }
  
  public SplitEnumerator, Map>>>
      createEnumerator(
          SplitEnumeratorContext> enumContext, boolean splitInitialized)
          throws Exception {

    if (boundedness == Boundedness.BOUNDED) {
      return new LazyFlinkSourceSplitEnumerator<>(
          enumContext, beamSource, serializablePipelineOptions.get(), numSplits, splitInitialized);
    } else {
      return new FlinkSourceSplitEnumerator<>(
          enumContext, beamSource, serializablePipelineOptions.get(), numSplits, splitInitialized);
    }
  }
    
}


public class FlinkSourceSplitEnumerator
    implements SplitEnumerator, Map>>> {
    
  public FlinkSourceSplitEnumerator(
      SplitEnumeratorContext> context,
      Source beamSource,
      PipelineOptions pipelineOptions,
      int numSplits,
      boolean splitsInitialized) {

    this.context = context;
    this.beamSource = beamSource;
    this.pipelineOptions = pipelineOptions;
    this.numSplits = numSplits;
    this.pendingSplits = new HashMap<>(numSplits);
    this.splitsInitialized = splitsInitialized;
  }

  @Override
  public void start() {
      // 这里加上了判断逻辑了,为true不会执行了
    if (!splitsInitialized) {
      initializeSplits();
    }
  }

  private void initializeSplits() {
    context.callAsync(
        () -> {
          try {
            LOG.info("Starting source {}", beamSource);
            List> beamSplitSourceList = splitBeamSource();
            Map>> flinkSourceSplitsList = new HashMap<>();
            int i = 0;
            for (Source beamSplitSource : beamSplitSourceList) {
              int targetSubtask = i % context.currentParallelism();
              List> splitsForTask =
                  flinkSourceSplitsList.computeIfAbsent(
                      targetSubtask, ignored -> new ArrayList<>());
              splitsForTask.add(new FlinkSourceSplit<>(i, beamSplitSource));
              i++;
            }
            return flinkSourceSplitsList;
          } catch (Exception e) {
            throw new RuntimeException(e);
          }
        },
        (sourceSplits, error) -> {
          if (error != null) {
            throw new RuntimeException("Failed to start source enumerator.", error);
          } else {
            pendingSplits.putAll(sourceSplits);
            splitsInitialized = true;
            sendPendingSplitsToSourceReaders();
          }
        });
  }
}

4.其他问题

从上可以看到Beam的KafkaSource实际上对比Flink原生的KafkaSource其实还有很多功能上的不足，比如说：

1.Beam中KafkaSource当从checkpoint恢复任务时，且这时候手动增加了Kafka的分区数实际上是不会被消费到的。

2.Beam中KafkaSource没有动态分区发现的功能，既不能在不手动重启任务且不从checkpoint恢复的情况下下消费到新分区的。

Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
2025最新系统 Git 教程（七）（完结）嘿rasa 2025最新教程系列 git
第4章分布式Git4.1分布式Git-分布式工作流程你现在拥有了一个远程Git版本库，能为所有开发者共享代码提供服务，在一个本地工作流程下，你也已经熟悉了基本Git命令。你现在可以学习如何利用Git提供的一些分布式工作流程了。这一章中，你将会学习如何作为贡献者或整合者，在一个分布式协作的环境中使用Git。你会学习为一个项目成功地贡献代码，并接触一些最佳实践方式，让你和项目的维护者能轻松地完成这个过
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
Spring Security OAuth2.0在分布式系统中的安全实践
引言分布式系统架构下，安全认证与授权面临跨服务、高并发、多租户等挑战。SpringSecurity与OAuth2.0的结合为微服务安全提供了标准化解决方案。分布式系统中的安全挑战跨服务身份认证的复杂性令牌管理的可扩展性问题多租户场景下的权限隔离需求防止CSRF、XSS等常见攻击SpringSecurityOAuth2.0核心架构授权服务器设计@EnableAuthorizationServer配置
【Spring WebFlux】为什么 Spring 要拥抱响应式会飞的架狗师 Spring WebFlux spring java 后端
在现代分布式系统中，响应式系统已成为应对高并发、低延迟需求的核心方案。但构建响应式系统并非易事——它需要框架级别的支持来解决异步处理、资源调度、背压控制等底层问题。作为Java生态中最具影响力的框架，Spring对响应式的支持并非偶然，而是技术演进的必然选择。本文将从响应式系统的构建挑战出发，剖析Spring拥抱响应式的底层逻辑。一、响应式系统的构建困境：现有方案的局限性响应式系统的核心诉求是在有
涵盖轻量级锁（SpinLock）与操作系统同步原语（如 CRITICAL_SECTION）的性能优化、Monitor 的原子性和数据竞争防护、Monitor.Wait 和 Pulse 在生产者-消费者 zhxup606 C#实战教程李工篇 wpf 开发语言 C#
涵盖轻量级锁（SpinLock）与操作系统同步原语（如CRITICAL_SECTION）的性能优化、Monitor的原子性和数据竞争防护、Monitor.Wait和Pulse在生产者-消费者中的作用、控制线程执行顺序、Thread.Join的含义、避免嵌套锁的锁顺序策略，以及防止伪唤醒的条件检查。每个问题包括核心概念、实现细节、与之前讨论的关联（如线程池、进程间同步、分布式同步）、代码示例、测试用
Seata与DTF框架在微服务中的选型对比策划加强小乔微服务架构云原生
在微服务架构中，分布式事务管理是确保数据一致性的关键环节。Seata和DTF作为两款主流的分布式事务解决方案，各自具有独特的优势和适用场景。以下从核心原理、功能特性、适用场景和实战案例等维度进行详细对比分析，并提供选型建议。核心架构与工作原理Seata：采用经典的分布式事务模型，支持AT（自动补偿）、TCC（Try-Confirm-Cancel）、SAGA和XA四种模式。AT模式通过全局锁实现数据
python中的 JWT weixin_34355881 python json php
Jsonwebtoken(JWT),是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准（(RFC7519).该token被设计为紧凑且安全的，特别适用于分布式站点的单点登录（SSO）场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息，以便于从资源服务器获取资源，也可以增加一些额外的其它业务逻辑所必须的声明信息，该token也可直接被用于认证，也可被加密。基
一篇教你学会Git 编程界的彭于晏qaq java GIT git
从安装到高级使用（2025最新版）引言：为什么Git是开发者必备技能Git（GlobalInformationTracker）作为最流行的分布式版本控制系统，由Linux之父LinusTorvalds于2005年创建，现已成为软件开发的基础设施。与传统集中式版本控制系统（如SVN）相比，Git具有三大核心优势：分布式架构：每个开发者本地都有完整仓库副本，支持离线工作高效分支管理：创建和切换分支几乎
Mybatisplus的雪花算法及代码生成器的使用你我约定有三算法 dreamweaver
1.雪花算法1.1背景:雪花算法（Snowflake）的使用背景主要源于高并发分布式系统环境下对唯一ID生成的需求。这种需求在像Twitter这样的社交媒体平台上尤为突出，因为Twitter需要处理每秒上万条消息的请求，并且每条消息都必须分配一个唯一的ID。这些ID不仅需要全局唯一，以跨机器、跨时间区分，还需要保持一定的顺序性（尽管不要求连续），以方便客户端排序和后续的数据处理。1.2与自动递增的
分布式IO选型指南：2025年分布式无线远程IO品牌及采集控制方案详解 2501_91398178 分布式分布式IO模块远程IO模块
近年来，随着工业物联网（IIoT）、智能制造和工业4.0的深入发展，分布式无线远程IO模块在工业控制领域的应用愈发广泛。这种模块通过无线方式实现远程数据采集与控制，极大地提高了工业设施的灵活性和效率。2025年，分布式IO市场呈现出技术革新与品牌竞争加剧的态势。本文基于权威数据平台（如Statista、MarketsandMarkets、GrandViewResearch）的市场分析，全面解读分布
基本服务 FTP & SMB 会飞的灰大狼 Centos7 linux
基本服务FTP&SMB前言：FTP简称为文件传输协议前面说的他可以做到备份的功能那么它可以做到文件传输的过程smb我们简单来说共享文件夹‍NFSNFS（NetworkFileSystem，网络文件系统）是一种分布式文件系统协议，允许不同计算机之间通过网络共享文件和目录，使远程文件系统像本地文件系统一样被访问。它最初由SunMicrosystems开发，现在已成为UNIX/Linux系统中常用的网络
分布式事务Seata的4种模式详解「已注销」分布式 wpf
Seata是一个开源的分布式事务解决方案，它在微服务架构下提供了高性能和简单易用的分布式事务服务。Seata的设计基于AT、TCC、Saga和XA事务模式，以满足不同场景下的分布式事务处理需求，今天的内容针对Seata来详细介绍一下。1、四种事务模式介绍1.AT模式：这是一种无侵入的分布式事务解决方案。用户只需关注自己的业务SQL，Seata框架会自动生成事务的二阶段提交和回滚操作。在一阶段，Se
分布式IO详解：2025年分布式无线远程IO采集控制方案选型指南 2501_91398178 分布式分布式IO
随着工业物联网（IIoT）和智能制造的快速发展，分布式远程IO（输入/输出）采集控制技术作为工业自动化系统的重要组成部分，正逐步取代传统集中式控制架构。这种技术广泛应用于工厂自动化、能源管理、智慧城市、过程控制等领域。2025年，分布式无线远程IO系统凭借其灵活性、低功耗和高可靠性，成为工业控制领域的核心解决方案。本文基于权威数据平台分析，详细解读分布式无线远程IO技术，盘点全球领先厂商及其产品优
零基础学习性能测试第六章：性能难点-Jmeter实现海量用户压测
目录一、海量压测核心挑战与解决思路二、分布式压测集群搭建（百倍性能提升）1.架构设计2.实战步骤三、百万级用户参数化方案1.Redis预生成测试数据2.JMeter分段读取（避免内存溢出）3.CSV分片策略四、高并发优化配置模板1.`jmeter.properties`关键修改2.线程组配置技巧五、结果收集与监控方案1.轻量级结果存储2.实时监控看板六、海量压测实战案例：双11级流量模拟测试目标：
探索RabbitMQ，让消息传递变得简单易懂！黎杉娜Torrent
探索RabbitMQ，让消息传递变得简单易懂！当你寻找一个强大而可靠的分布式消息队列系统时，RabbitMQ无疑是最佳选择之一。这个开源项目已经赢得了全球无数开发者的喜爱，现在，更有一份详尽的【RabbitMQ中文】文档在等待你的探索！项目介绍RabbitMQ中文是一份专门为非英语国家的开发者准备的高质量翻译资源，它将原汁原味的RabbitMQ官方文档转化为中文，旨在帮助中国地区的开发者更好地理解
TiDB - 分布式数据库的架构与特性爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：TiDB是一个开源的分布式NewSQL数据库，受到了Google的Spanner/F1系统的启发。它提供水平扩展和强一致性事务，适用于需要高可用性和大规模数据处理的场景。TiDB的核心特点包括其分布式架构，由TiDBServer（SQL层）、PDServer（调度器）和TiKVServer（存储引擎）组成；支持无缝的水平扩展和ACID事务；与MySQL高度兼容
多通道 ISP（双 ISP）并行处理机制解析：架构演进、资源调度与实战配置路径观熵影像技术全景图谱：架构调优与实战接口隔离原则架构影像 Camera
多通道ISP（双ISP）并行处理机制解析：架构演进、资源调度与实战配置路径关键词：双ISP、并行图像处理、多Sensor管线、分布式调度、ISP平衡调度、帧同步、多路输入、SoC图像架构摘要：随着智能手机多摄系统的普及，传统单通道ISP架构已无法满足同时驱动多颗高分辨率摄像头、并发处理视频与拍照任务的性能需求。为此，各大SoC厂商纷纷引入“双ISP”或“多通道ISP”设计，用于提升吞吐能力、降低延
OpenSIPS 邂逅 Kafka：构建高效 VoIP 消息处理架构 c_zyer opensips SIP 消息队列 kafka opensips voip
使用场景使用步骤引入模块组装&发送数据消费数据故障转移使用场景异步日志处理：将OpenSIPS中的SIP信令日志、通话记录（CDR）等数据发送到Kafka队列中。事件通知与监控：利用OpenSIPS的event_interface模块将SIP事件（如呼叫建立、断开、注册等）推送到KafkaOpenSIPS中事件接口有以下类型：EVENT_DATAGRAM-PublishJSON-RPCnotifi
C#的lambda表达式与Linq hccee c#linq
C#的lambda表达式、Linq、以及常用方法Lambda：简单来讲就是匿名函数，我们不声明方法名，只写一个方法体，这个方法体就是lambda表达式Linq：Linq是LanguageIntergratedQuery（语言集成查询）的缩写，可以对本地对象**集合**或者远程数据源进行结构化的查询操作。lambda表达式如何写一个lambda表达式首先，在写lambda表达式之前，需要先了解两个特
【链路追踪】 WIN赢面试专栏性能优化自动化
一、什么是链路追踪链路追踪（Tracing）是一种用于分布式系统中跟踪请求处理过程的技术。它通过记录一次请求在多个服务之间的流转路径、耗时、状态等信息，帮助开发人员快速定位问题、分析性能瓶颈，并理解系统中各组件的交互关系。链路追踪不仅是一种强大的监控手段，也是测试人员在分布式系统中不可或缺的测试工具。它能够帮助测试人员快速定位问题、分析性能瓶颈，并优化系统性能，从而提高测试效率和质量二、核心概念T
Kafka事务机制详解一碗黄焖鸡三碗米饭 Kafka全景解析 kafka 分布式 Java 副本事务分区大数据
目录Kafka事务机制详解1.Kafka中的事务概述2.Kafka事务的基本概念2.1精确一次处理（ExactlyOnceSemantics，EOS）2.2Kafka事务的工作流程3.Kafka事务的配置与使用3.1生产者端的事务配置3.2消费者端的事务配置4.Kafka事务的优势与限制4.1Kafka事务的优势4.2Kafka事务的限制5.总结在分布式系统中，事务性操作（如数据库事务）是非常重要
kafka的ISR机制详解 inori1256 kafka 分布式
Kafka的ISR机制ISR（In-SyncReplicas同步副本集）机制是一种用于确保数据可靠性和一致性的重要机制。一、ISR的定义ISR是指与Kafka分区中的Leader副本保持同步的Follower副本集合。这些副本已经复制了Leader副本的所有数据，并且它们的落后时间在一定范围内，因此被认为是可靠的、可以用于故障转移和数据恢复的副本。二、ISR的作用数据复制：当消息被写入Kafka的
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥密落霞归雁 AI编程教育电商微信开放平台 rabbitmq 中间件
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥秘在当今数字化时代，消息队列（MessageQueue，简称MQ）已经成为分布式系统中不可或缺的组件，而ApacheKafka作为其中的佼佼者，以其卓越的性能和广泛的应用场景脱颖而出。今天，就让我们用一句话读懂Kafka，并通过5W1H（What、Why、Who、When、Where、How）的方式，深入剖析它的核心价值与技术魅力。一句话读懂
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

Beam2.61.0版本消费kafka重复问题排查

1.问题出现过程

2.任务排查过程

3.问题解决

4.其他问题

你可能感兴趣的:(kafka,linq,分布式)