Kafka分区分配策略：深入剖析与实战指南

一、引言

Kafka 凭借其高吞吐量、可扩展性和容错性等优势，成为了消息队列和流处理的首选工具。无论是日志收集、实时数据处理，还是事件驱动架构，Kafka 都扮演着关键角色。在 Kafka 的众多特性中，分区与消费者分配策略对其性能和稳定性起着至关重要的作用。

Kafka 的分区机制是其实现高吞吐量和水平扩展的核心。通过将主题（Topic）划分为多个分区（Partition），Kafka 可以将消息分散存储在不同的 Broker 节点上，从而实现并行处理。每个分区都是一个有序的消息队列，生产者可以将消息发送到指定的分区，消费者则可以从分区中拉取消息进行消费。

消费者分配策略则决定了如何将分区分配给消费者组（Consumer Group）中的各个消费者。合理的分配策略可以确保负载均衡，提高消费效率，同时减少不必要的开销。Kafka 提供了多种内置的分配策略，如 RangeAssignor、RoundRobinAssignor 和 StickyAssignor，每种策略都有其独特的算法和适用场景。此外，Kafka 还允许用户自定义分配策略，以满足特定的业务需求。

二、Kafka 分区基础概念

2.1 什么是分区

在 Kafka 中，分区（Partition）是主题（Topic）的物理划分，每个主题可以被划分成一个或多个分区，每个分区是一个有序的、不可变的消息队列。可以将分区理解为一个特殊的文件，生产者发送的消息会被追加到分区的末尾，每个消息在分区中都有一个唯一的偏移量（Offset），用于标识消息在分区中的位置。

Kafka 通过将主题划分为多个分区，可以将消息分散存储在不同的 Broker 节点上，从而实现并行处理。这种设计使得 Kafka 能够处理大量的数据，并支持水平扩展。例如，当一个主题的消息量不断增加时，可以通过增加分区的数量来提高系统的处理能力，而不需要增加单个 Broker 的负载。

2.2 分区的作用

提高数据读写性能：由于每个分区可以独立进行读写操作，Kafka 可以利用多个分区并行处理消息，从而提高整体的读写性能。比如在一个日志收集系统中，大量的日志消息被发送到 Kafka 主题，如果没有分区，所有的消息都需要在一个队列中进行处理，这会导致读写性能瓶颈。而通过分区，不同的日志消息可以被发送到不同的分区，多个分区可以同时进行读写操作，大大提高了系统的吞吐能力。
实现负载均衡：分区机制使得 Kafka 能够将消息均匀地分布到不同的 Broker 上，避免单个 Broker 成为性能瓶颈。每个分区可以由不同的 Broker 负责存储和处理，从而实现负载均衡。例如，在一个分布式电商系统中，订单消息被发送到 Kafka 主题，通过分区，这些订单消息可以被均匀地分配到不同的 Broker 上，每个 Broker 只需要处理一部分订单消息，这样可以有效地降低单个 Broker 的负载，提高系统的稳定性和可靠性。
增强系统扩展性：当系统的负载增加时，可以通过增加分区和 Broker 的数量来扩展系统的处理能力。Kafka 可以自动检测新加入的 Broker，并将分区分配到新的 Broker 上，从而实现系统的无缝扩展。例如，随着业务的发展，电商系统的订单量不断增加，此时可以通过增加 Kafka 的分区和 Broker 数量，让系统能够处理更多的订单消息，满足业务增长的需求。
保证消息顺序性：在同一个分区中，消息是按照生产顺序存储的，这保证了消息的顺序性。对于一些需要按顺序处理的业务场景，如订单处理、支付流程等，可以将相关的消息发送到同一个分区，确保消息的顺序性。例如，在一个订单处理系统中，订单的创建、支付、发货等消息需要按照顺序进行处理，通过将这些消息发送到同一个分区，可以保证它们在消费时的顺序性，避免出现业务错误。

三、消费者分配策略核心

3.1 为什么需要分配策略

在 Kafka 的消费体系中，消费者组（Consumer Group）是一个核心概念，它允许多个消费者共同消费一个或多个主题（Topic）的消息。每个消费者组内的消费者需要协同工作，确保每个分区（Partition）都能被有效地消费，同时避免重复消费和数据丢失。这就需要一个合理的消费者分配策略来决定如何将分区分配给消费者组中的各个消费者。

具体来说，消费者分配策略的重要性体现在以下几个方面：

负载均衡：通过合理的分配策略，可以确保每个消费者承担的负载相对均衡，避免某些消费者负载过高，而另一些消费者负载过低的情况。例如，在一个电商订单处理系统中，有多个消费者负责处理订单消息，如果分配策略不合理，可能会导致部分消费者处理大量订单，而其他消费者闲置，从而影响整个系统的处理效率。通过采用合适的分配策略，可以将订单消息均匀地分配给各个消费者，提高系统的整体吞吐量。
提高消费效率：合适的分配策略可以减少消费者之间的竞争和冲突，提高消费效率。比如，在一个日志收集系统中，多个消费者需要从不同的分区读取日志消息进行处理。如果分配策略不当，可能会导致多个消费者同时竞争同一个分区的消息，造成资源浪费和消费延迟。而通过合理的分配策略，可以让每个消费者专注于处理自己负责的分区，减少竞争，提高消费速度。
保证数据一致性：在一些对数据一致性要求较高的场景中，分配策略需要确保每个分区的数据按照顺序被消费。例如，在一个金融交易系统中，订单的创建、支付、退款等操作的消息需要按照顺序进行处理，以保证交易的一致性。通过将相关的消息分配到同一个分区，并确保该分区由一个消费者按顺序消费，可以满足这种数据一致性的要求。
适应动态变化：Kafka 集群是一个动态的环境，消费者可能会因为各种原因加入或退出消费者组，分区数量也可能会发生变化。消费者分配策略需要能够适应这些动态变化，及时调整分区的分配，确保系统的稳定性和可靠性。例如，当一个新的消费者加入消费者组时，分配策略需要重新计算分区的分配，将一部分分区分配给新的消费者，同时保证其他消费者的分配不受太大影响。

3.2 分配策略的工作机制

Kafka 通过消费者组协调器（GroupCoordinator）来管理消费者分配策略。每个消费者组都有一个对应的 GroupCoordinator，它负责协调消费者组内的所有消费者，包括消费者的加入、退出，以及分区的分配和再平衡（Rebalance）等操作。

在分区再平衡（Rebalance）过程中，分配策略的执行流程如下：

消费者加入组：当一个新的消费者启动并加入消费者组时，它会向 GroupCoordinator 发送 JoinGroup 请求，请求中包含该消费者支持的分配策略列表以及订阅的主题信息。
选举组领导者：GroupCoordinator 收到所有消费者的 JoinGroup 请求后，会从消费者组中选举出一个领导者（Leader）消费者。选举的规则通常是第一个加入组的消费者成为 Leader，如果 Leader 消费者因为某些原因退出，GroupCoordinator 会重新选举新的 Leader。比如在一个由多个消费者组成的日志处理系统中，当系统启动时，第一个连接到 GroupCoordinator 的消费者会被选为 Leader，负责后续的分区分配工作。
选择分配策略：GroupCoordinator 收集所有消费者支持的分配策略，通过投票的方式选择一个共同支持的分配策略。具体来说，每个消费者从候选策略集中选择自己支持的第一个策略进行投票，得票最多的策略将被选为最终的分配策略。例如，消费者组中有三个消费者，分别支持 RangeAssignor、RoundRobinAssignor 和 StickyAssignor 策略，通过投票，若 RangeAssignor 策略获得两票，那么它将被选为该消费者组的分配策略。
执行分配策略：Leader 消费者根据选定的分配策略，计算出每个消费者应该分配到的分区，并将分配结果通过 SyncGroup 请求发送给 GroupCoordinator。在计算分配时，不同的分配策略有不同的算法。如 RangeAssignor 策略会根据分区数量和消费者数量进行整除和取余运算，来确定每个消费者的分区范围；RoundRobinAssignor 策略则会将所有分区和消费者进行排序，然后以轮询的方式进行分配。
分配结果通知：GroupCoordinator 将分配结果通过 SyncGroupResponse 响应发送给每个消费者，消费者根据分配结果开始消费自己负责的分区。每个消费者在接收到分配结果后，会根据自身的逻辑开始从对应的分区中拉取消息进行处理。例如，在一个电商订单处理系统中，消费者 A 被分配到订单主题的分区 0 和分区 1，它就会从这两个分区中读取订单消息并进行处理。

四、三种常见分配策略详解

4.1 RangeAssignor 策略

1. 原理剖析

RangeAssignor 策略是 Kafka 的默认分区分配策略，其核心原理是按照消费者总数和分区总数进行整除运算来获得一个跨度，然后将分区按照这个跨度进行平均分配，以此保证分区尽可能均匀地分配给所有的消费者。对于每一个主题，RangeAssignor 策略会将消费组内所有订阅这个主题的消费者按照名称的字典序排序，然后为每个消费者划分固定的分区范围。假设 n = 分区数 / 消费者数量，m = 分区数 % 消费者数量，那么前 m 个消费者每个分配 n + 1 个分区，后面的（消费者数量 - m）个消费者每个分配 n 个分区。

2. 分配示例

假设有一个消费组，其中包含 2 个消费者 C0 和 C1，它们共同订阅了 2 个主题 t0 和 t1，并且每个主题都有 4 个分区，分别为 t0p0、t0p1、t0p2、t0p3、t1p0、t1p1、t1p2、t1p3。按照 RangeAssignor 策略的分配过程如下：

对于主题 t0，分区数为 4，消费者数量为 2，n = 4 / 2 = 2，m = 4 % 2 = 0。所以消费者 C0 分配到 t0p0、t0p1，消费者 C1 分配到 t0p2、t0p3。
对于主题 t1，同样分区数为 4，消费者数量为 2，n = 4 / 2 = 2，m = 4 % 2 = 0。因此消费者 C0 分配到 t1p0、t1p1，消费者 C1 分配到 t1p2、t1p3。

最终的分配结果为：消费者 C0 负责 t0p0、t0p1、t1p0、t1p1；消费者 C1 负责 t0p2、t0p3、t1p2、t1p3。在这种情况下，分区分配是均匀的。

然而，当分区数不能被消费者数量整除时，就会出现分配不均匀的情况。比如，当每个主题只有 3 个分区时，即 t0p0、t0p1、t0p2、t1p0、t1p1、t1p2 ：

对于主题 t0，分区数为 3，消费者数量为 2，n = 3 / 2 = 1，m = 3 % 2 = 1。所以消费者 C0 分配到 t0p0、t0p1，消费者 C1 分配到 t0p2。
对于主题 t1，分区数为 3，消费者数量为 2，n = 3 / 2 = 1，m = 3 % 2 = 1。于是消费者 C0 分配到 t1p0、t1p1，消费者 C1 分配到 t1p2。

最终的分配结果为：消费者 C0 负责 t0p0、t0p1、t1p0、t1p1；消费者 C1 负责 t0p2、t1p2。可以明显看出，消费者 C0 比消费者 C1 多分配了 2 个分区，分配不均衡。

3. 优缺点分析

优点：在分区数能被消费者数量整除时，RangeAssignor 策略能够保证分区分配的均匀性，使得每个消费者负载相对均衡。同时，对于相同编号的分区，它倾向于分配给同一个消费者，这在某些对分区顺序性有要求的场景下非常有用。例如，在一个订单处理系统中，订单创建、支付、发货等消息按照顺序发送到 Kafka 的不同分区，如果同一个分区始终由同一个消费者处理，就可以保证订单处理的顺序性。
缺点：当分区数不能被消费者数量整除时，会导致分区分配不均衡，部分消费者可能会分配到过多的分区，从而造成负载过高。在实际应用中，如果这种不均衡的情况持续存在，可能会导致部分消费者处理速度过慢，影响整个系统的性能和稳定性。比如在一个日志处理系统中，某些消费者因为分配到过多的分区，导致处理日志的速度跟不上日志产生的速度，最终可能会导致日志积压，影响系统的正常运行。

4.2 RoundRobinAssignor 策略

1. 原理剖析

RoundRobinAssignor 策略的原理是将消费组内所有消费者以及消费者订阅的所有主题的分区按照字典序排序，然后通过轮询方式逐个将分区依次分配给每个消费者。与 RangeAssignor 策略不同，它不再局限于某个主题，而是将所有订阅的主题的分区统一进行分配。这种策略的目的是在更广泛的范围内实现分区的均匀分配，以提高整体的消费效率。

2. 分配示例

假设消费组中有 2 个消费者 C0 和 C1，都订阅了主题 t0 和 t1，并且每个主题都有 3 个分区，分别为 t0p0、t0p1、t0p2、t1p0、t1p1、t1p2。按照 RoundRobinAssignor 策略的分配过程如下：

首先，将所有分区和消费者按照字典序排序，得到排序后的序列：C0、C1、t0p0、t0p1、t0p2、t1p0、t1p1、t1p2。

然后，从第一个分区 t0p0 开始，以轮询的方式分配给消费者。t0p0 分配给 C0，t0p1 分配给 C1，t0p2 分配给 C0，t1p0 分配给 C1，t1p1 分配给 C0，t1p2 分配给 C1。

最终的分配结果为：消费者 C0 负责 t0p0、t0p2、t1p1；消费者 C1 负责 t0p1、t1p0、t1p2。可以看到，在这种情况下，分区分配是均匀的。

但是，当消费组内的消费者订阅信息不同时，可能会出现分区分配不均匀的情况。例如，消费组内有 3 个消费者 C0、C1 和 C2，它们共订阅了 3 个主题 t0、t1、t2，这 3 个主题分别有 1、2、3 个分区，即整个消费组订阅了 t0p0、t1p0、t1p1、t2p0、t2p1、t2p2 这 6 个分区。消费者 C0 订阅的是主题 t0，消费者 C1 订阅的是主题 t0 和 t1，消费者 C2 订阅的是主题 t0、t1 和 t2。按照 RoundRobinAssignor 策略的分配过程如下：

排序后的序列为：C0、C1、C2、t0p0、t1p0、t1p1、t2p0、t2p1、t2p2。

t0p0 分配给 C0，t1p0 分配给 C1，t1p1 分配给 C2，t2p0 分配给 C0（因为 C0 没有其他可分配的分区，这里是轮询到 C0），t2p1 分配给 C1，t2p2 分配给 C2。

最终的分配结果为：消费者 C0 负责 t0p0、t2p0；消费者 C1 负责 t1p0、t2p1；消费者 C2 负责 t1p1、t2p2。可以发现，这种分配并不是最优解，因为 C0 没有订阅 t1 和 t2 的大部分分区，却被分配到了 t2p0，而 C1 没有分配到 t1p1，导致分配不均衡。

3. 优缺点分析

优点：当消费组内所有消费者的订阅信息相同时，RoundRobinAssignor 策略能够实现分区的均匀分配，确保每个消费者的负载均衡，提高系统的整体性能。在一个分布式的数据处理系统中，如果所有消费者都订阅了相同的主题，并且处理能力相同，使用 RoundRobinAssignor 策略可以让每个消费者均匀地处理分区，充分利用系统资源。
缺点：当消费者订阅信息不同时，可能会导致分区分配不均匀，影响消费效率。而且，在消费者数量发生变化时，该策略不会尝试减少分区的重新分配，可能会导致不必要的开销。比如，当一个新的消费者加入消费组时，RoundRobinAssignor 策略会直接按照新的消费者列表重新分配分区，而不会考虑之前的分配情况，这可能会导致一些分区被频繁重新分配，增加系统的负担。

4.3 StickyAssignor 策略

1. 原理剖析

StickyAssignor 策略是 Kafka 从 0.11.x 版本开始引入的一种分配策略，它主要有两个目标：一是分区的分配要尽可能均匀，确保每个消费者的负载均衡；二是分区的分配尽可能与上次分配保持相同，以减少因分区重新分配带来的系统开销和潜在风险。当这两个目标发生冲突时，第一个目标优先于第二个目标。为了实现这两个目标，StickyAssignor 策略的具体实现相对复杂，需要综合考虑多个因素，包括消费者的加入和离开、分区的增加和减少等情况。

2. 分配示例

假设消费组内有 3 个消费者 C0、C1 和 C2，它们都订阅了 4 个主题 t0、t1、t2、t3，并且每个主题有 2 个分区，即整个消费组订阅了 t0p0、t0p1、t1p0、t1p1、t2p0、t2p1、t3p0、t3p1 这 8 个分区。按照 StickyAssignor 策略的初始分配结果可能如下：

消费者 C0 负责 t0p0、t1p1、t3p0；

消费者 C1 负责 t0p1、t2p0、t3p1；

消费者 C2 负责 t1p0、t2p1。

可以看到，这个分配结果保证了分区分配的均匀性。

当消费者 C1 脱离消费组时，消费组会执行再平衡操作，重新分配分区。如果采用 RoundRobinAssignor 策略，此时的分配结果可能是：

消费者 C0 负责 t0p0、t1p0、t2p0、t3p0；

消费者 C2 负责 t0p1、t1p1、t2p1、t3p1。

而如果使用 StickyAssignor 策略，分配结果为：

消费者 C0 负责 t0p0、t1p1、t3p0、t2p0；

消费者 C2 负责 t1p0、t2p1、t0p1、t3p1。

可以发现，StickyAssignor 策略保留了上一次分配中对消费者 C0 和 C2 的所有分配结果，并将原来消费者 C1 的 “负担” 分配给了剩余的两个消费者 C0 和 C2，最终 C0 和 C2 的分配还保持了均衡。这种分配方式减少了不必要的分区变动，降低了系统的开销。

3. 优缺点分析

优点：StickyAssignor 策略能够保证分区分配的均衡性，避免出现部分消费者负载过高的情况。同时，它通过尽量保持与上次分配相同，减少了分区重分配时的变动，降低了系统资源的损耗，提高了系统的稳定性。在一个需要长期稳定运行的大数据处理系统中，使用 StickyAssignor 策略可以减少因分区重新分配导致的服务中断和数据处理异常的风险。
缺点：由于需要同时考虑分区分配的均匀性和与上次分配的一致性，StickyAssignor 策略的实现复杂度较高，对系统的计算资源和时间资源要求也相对较高。在一些对性能要求极高、资源有限的场景下，可能会因为 StickyAssignor 策略的复杂性而影响系统的整体性能。

五、自定义分配策略实战

5.1 实现 ConsumerPartitionAssignor 接口

1. 接口介绍

在 Kafka 中，ConsumerPartitionAssignor接口是实现自定义分区分配策略的关键。该接口定义了一系列方法，用于控制分区如何分配给消费者。以下是对其主要方法的详细介绍：

Subscription subscription(Set topics)：这个方法用于创建一个Subscription对象，该对象包含了消费者订阅的主题集合。在创建JoinGroupRequest时会用到这个方法，它允许用户在订阅信息中添加自定义数据，例如可以为每个消费者设置权重，以便在分配分区时考虑这些因素。
Map assign(Cluster metadata, Map subscriptions)：这是最重要的方法，需要子类实现具体的分区分配逻辑。其中，metadata参数提供了 Kafka 集群的元数据信息，包括所有主题和分区的详细信息；subscriptions参数包含了每个消费者的订阅信息。方法的返回值是一个Map，其中键是消费者的 ID，值是Assignment对象，Assignment对象中包含了分配给该消费者的分区集合。
void onAssignment(Assignment assignment)：这是一个回调方法，当每个消费者收到分区分配结果时会被调用，且调用发生在解析SyncGroupResponse之后。在这个方法中，可以对分配结果进行一些额外的处理，比如记录分配结果、进行资源初始化等。
String name()：这个方法返回分配策略的名称，用于标识自定义的分配策略，方便在配置中指定使用该策略。

这些方法在分配策略中的执行时机如下：

当消费者启动并加入消费者组时，首先会调用subscription方法创建订阅信息，并将其包含在JoinGroupRequest中发送给 GroupCoordinator。
GroupCoordinator 收到所有消费者的JoinGroupRequest后，会选举出一个领导者消费者，并选择一种分配策略。
领导者消费者调用assign方法，根据集群元数据和所有消费者的订阅信息，计算出分区的分配方案。
领导者消费者将分配结果通过SyncGroupRequest发送给 GroupCoordinator，GroupCoordinator 再将分配结果发送给每个消费者。
每个消费者收到分配结果后，调用onAssignment方法，对分配结果进行处理。

2. 代码实现步骤

下面通过一个具体的 Java 代码示例，逐步演示如何实现ConsumerPartitionAssignor接口来创建自定义分配策略。假设我们要实现一个简单的自定义分配策略，根据消费者的权重来分配分区，权重越大的消费者分配到的分区越多。

首先，定义一个自定义的Subscription类，用于存储消费者的权重信息：

import org.apache.kafka.clients.consumer.internals.Subscription;
import java.nio.ByteBuffer;
import java.util.List;

public class WeightedSubscription extends Subscription {
    private final int weight;

    public WeightedSubscription(List topics, int weight) {
        super(topics);
        this.weight = weight;
        ByteBuffer buffer = ByteBuffer.allocate(4);
        buffer.putInt(weight);
        super.userData = buffer;
    }

    public int getWeight() {
        return weight;
    }
}

然后，实现ConsumerPartitionAssignor接口：

import org.apache.kafka.clients.consumer.ConsumerPartitionAssignor;
import org.apache.kafka.common.Cluster;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.internals.TopicPartitionList;

import java.nio.ByteBuffer;
import java.util.*;

public class WeightedAssignor implements ConsumerPartitionAssignor {
    @Override
    public String name() {
        return "weighted-assignor";
    }

    @Override
    public Subscription subscription(Set topics) {
        // 这里可以根据实际情况获取权重，暂时假设权重为1
        return new WeightedSubscription(new ArrayList<>(topics), 1);
    }

    @Override
    public Map assign(Cluster metadata, Map subscriptions) {
        Map consumerWeights = new HashMap<>();
        for (Map.Entry entry : subscriptions.entrySet()) {
            WeightedSubscription weightedSubscription = (WeightedSubscription) entry.getValue();
            consumerWeights.put(entry.getKey(), weightedSubscription.getWeight());
        }

        Map> partitionAssignment = new HashMap<>();
        for (String topic : metadata.topics()) {
            List partitions = metadata.partitionsForTopic(topic);
            assignPartitions(partitions, consumerWeights, partitionAssignment);
        }

        Map result = new HashMap<>();
        for (Map.Entry> entry : partitionAssignment.entrySet()) {
            result.put(entry.getKey(), new Assignment(entry.getValue()));
        }
        return result;
    }

    private void assignPartitions(List partitions, Map consumerWeights,
                                  Map> assignment) {
        List consumers = new ArrayList<>(consumerWeights.keySet());
        int totalWeight = consumerWeights.values().stream().mapToInt(Integer::intValue).sum();

        int index = 0;
        for (TopicPartition partition : partitions) {
            String consumer = consumers.get(index % consumers.size());
            assignment.putIfAbsent(consumer, new ArrayList<>());
            assignment.get(consumer).add(partition);
            index += consumerWeights.get(consumer);
            index %= totalWeight;
        }
    }

    @Override
    public void onAssignment(Assignment assignment) {
        // 可以在这里处理分配结果，例如记录日志
        System.out.println("Assignment received: " + assignment);
    }
}

最后，在 Kafka 消费者配置中使用这个自定义的分配策略：

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.util.Collections;
import java.util.Properties;

public class CustomAssignmentExample {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "custom-assignment-group");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, WeightedAssignor.class.getName());

        KafkaConsumer consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList("test-topic"));

        try {
            while (true) {
                // 处理消息
                consumer.poll(100);
            }
        } finally {
            consumer.close();
        }
    }
}

通过以上步骤，我们成功实现了一个简单的自定义分区分配策略，并在 Kafka 消费者中使用了它。在实际应用中，可以根据具体的业务需求对分配逻辑进行更复杂的实现。

5.2 自定义策略的应用场景

虽然 Kafka 提供了多种内置的分区分配策略，如RangeAssignor、RoundRobinAssignor和StickyAssignor，但在某些特定的业务场景下，这些默认策略可能无法满足需求，此时自定义分配策略就发挥出了重要作用。

特定的数据处理需求：在一些对数据处理顺序有严格要求的场景中，自定义分配策略可以确保相关的数据被分配到同一个消费者进行处理，从而保证数据处理的顺序性。例如，在一个金融交易系统中，订单的创建、支付、退款等操作的消息需要按照顺序进行处理，以保证交易的一致性。通过自定义分配策略，可以将同一个订单相关的所有消息分配到同一个消费者，确保这些消息按顺序被消费和处理，避免出现业务错误。
对消费者负载有特殊要求：在某些情况下，不同的消费者可能具有不同的处理能力，或者某些消费者需要处理特定类型的数据，这就需要根据消费者的实际情况进行分区分配。例如，在一个分布式数据处理集群中，部分消费者节点配置较高，处理能力较强，而部分节点配置较低。通过自定义分配策略，可以根据节点的处理能力为其分配不同数量的分区，让处理能力强的节点承担更多的负载，从而充分利用集群资源，提高整体的处理效率。再比如，在一个多租户的系统中，每个租户的数据需要由特定的消费者进行处理，以保证数据的隔离和安全性。自定义分配策略可以根据租户信息将相应的分区分配给对应的消费者，满足这种特殊的业务需求。
结合业务规则进行分区分配：有些业务场景中，数据的分区分配需要结合特定的业务规则。例如，在一个电商系统中，根据商品类别进行分区分配，将热门商品的相关消息分配到处理能力较强的消费者，以确保热门商品的订单能够得到及时处理。或者根据用户地域进行分区分配，将某个地区的用户相关消息分配到离该地区较近的消费者节点，以减少网络延迟，提高处理速度。这些复杂的业务规则无法通过 Kafka 的默认分配策略实现，而自定义分配策略可以根据业务需求灵活定制，满足业务的个性化需求。

通过实现自定义分配策略，开发者可以根据具体的业务场景和需求，灵活地控制分区的分配，从而优化 Kafka 集群的性能，提高系统的稳定性和可靠性。

六、分区再平衡与钩子函数

6.1 分区再平衡（Rebalance）

1. 再平衡触发条件

分区再平衡（Rebalance）是 Kafka 消费者组中一个重要的机制，它确保在动态变化的环境中，分区能够合理地分配给消费者，以实现负载均衡和高可用性。以下是几种常见的触发分区再平衡的条件：

消费者组中新增或移除消费者：当有新的消费者加入消费者组时，为了保证负载均衡，需要重新分配分区。例如，在一个电商订单处理系统中，随着业务量的增长，原来的两个消费者无法及时处理大量的订单消息，此时新增了一个消费者。为了让新消费者也能分担处理任务，Kafka 会触发再平衡，重新分配订单主题的分区给这三个消费者。同样，当有消费者因为故障、主动退出或网络问题等原因离开消费者组时，也会触发再平衡，将其原来负责的分区分配给其他消费者。比如在一个日志收集系统中，某个消费者所在的服务器突然宕机，该消费者离开消费者组，Kafka 会立即触发再平衡，把它负责的日志主题分区分配给其他正常运行的消费者，确保日志数据能够继续被及时收集和处理。
订阅的 topic 分区数量变化：如果某个主题的分区数量增加或减少，Kafka 需要重新计算分区的分配，以适应新的分区情况。例如，一个社交媒体平台的用户行为数据被发送到 Kafka 的一个主题中，随着用户数量的快速增长，原来的分区数量无法满足数据写入和读取的需求，于是管理员增加了该主题的分区数量。此时，Kafka 会触发再平衡，将新增的分区分配给消费者组中的消费者，以保证数据的高效处理。相反，如果因为业务调整，某个主题的分区数量减少，Kafka 也会触发再平衡，重新分配剩余的分区给消费者。
消费者消费速度过慢导致会话超时：Kafka 通过心跳机制来检测消费者的健康状况，每个消费者会定期向 GroupCoordinator 发送心跳消息。如果消费者由于 GC 停顿、网络延迟或处理逻辑复杂等原因，长时间没有发送心跳消息，超过了会话超时时间（session.timeout.ms），GroupCoordinator 会认为该消费者已经下线，从而触发再平衡，将其分区分配给其他消费者。例如，在一个数据分析系统中，某个消费者在处理大量复杂的数据计算任务时，由于计算资源不足，导致处理速度过慢，长时间无法向 GroupCoordinator 发送心跳。当超过会话超时时间后，GroupCoordinator 判定该消费者下线，触发再平衡，将其负责的分区分配给其他有能力及时处理数据的消费者，以保证数据分析的实时性。

2. 再平衡过程解析

当满足上述触发条件之一时，Kafka 会执行分区再平衡操作，其详细过程如下：

消费者组状态切换：在再平衡开始时，消费者组会从 “稳定运行” 状态切换到 “再平衡” 状态。在这个阶段，所有消费者会暂停对消息的消费，以确保在分区重新分配过程中不会出现数据不一致或重复消费的问题。例如，在一个实时推荐系统中，当再平衡开始时，所有负责处理用户行为数据的消费者会暂停消费，等待新的分区分配结果，以保证推荐算法能够基于正确的数据进行计算。
重新选举 leader 消费者：Kafka 会在消费者组中重新选举一个 leader 消费者。通常情况下，第一个加入消费者组的消费者会成为 leader，但在再平衡过程中，如果原来的 leader 消费者已经离开或者出现故障，就需要重新选举。选举的过程是通过消费者向 GroupCoordinator 发送 JoinGroup 请求，GroupCoordinator 根据一定的规则（如消费者 ID 的字典序）选择一个消费者作为新的 leader。例如，在一个分布式消息处理系统中，当进行再平衡时，所有消费者向 GroupCoordinator 发送 JoinGroup 请求，GroupCoordinator 收到请求后，根据消费者 ID 的顺序，选择其中一个消费者作为新的 leader，负责后续的分区分配工作。
重新分配分区：leader 消费者根据选定的分区分配策略（如 RangeAssignor、RoundRobinAssignor 或 StickyAssignor），重新计算每个消费者应该分配到的分区。这个过程中，leader 消费者会收集消费者组内所有消费者的订阅信息以及 Kafka 集群的元数据信息（包括主题和分区的详细信息），然后按照分配策略进行分区分配。例如，使用 RangeAssignor 策略时，leader 消费者会根据分区数和消费者数量进行整除和取余运算，确定每个消费者的分区范围；使用 RoundRobinAssignor 策略时，会将所有分区和消费者排序后以轮询方式分配。计算完成后，leader 消费者将分配结果通过 SyncGroup 请求发送给 GroupCoordinator，GroupCoordinator 再将分配结果发送给每个消费者。消费者根据接收到的分配结果，开始消费新分配到的分区。在一个电商订单处理系统中，经过再平衡重新分配分区后，每个消费者会根据新的分配结果，从对应的分区中读取订单消息并进行处理，确保订单能够及时得到处理。

6.2 钩子函数（onPartitionsRevoked/onPartitionsAssigned）

1. 钩子函数介绍

在 Kafka 消费者中，onPartitionsRevoked和onPartitionsAssigned是两个非常有用的钩子函数，它们为开发者提供了在分区分配被撤销和重新分配时执行自定义逻辑的能力。

onPartitionsRevoked：这个钩子函数会在分区分配被撤销之前被调用，也就是在再平衡开始之前和消费者停止读取消息之后。它的主要作用是让开发者有机会在失去分区所有权之前执行一些清理操作，比如提交当前分区的偏移量，以确保数据不会被重复消费。在一个订单处理系统中，当消费者即将失去对某些分区的所有权时，可以在onPartitionsRevoked函数中提交已经处理的订单消息的偏移量，这样在再平衡完成后，新接手这些分区的消费者就可以从正确的位置继续消费，避免重复处理已经处理过的订单。
onPartitionsAssigned：此钩子函数会在分区重新分配之后被调用，即在消费者开始读取新分配的分区消息之前。它允许开发者在获得新的分区所有权后执行一些初始化操作，比如初始化本地缓存、建立与外部系统的连接等。例如，在一个数据分析系统中，当消费者被分配到新的分区时，可以在onPartitionsAssigned函数中根据分区的特点初始化相应的本地缓存，以便更高效地处理来自这些分区的数据，或者建立与数据库的连接，准备将处理后的数据存储到数据库中。

2. 使用示例

下面通过一个具体的 Java 代码示例，展示如何在 Kafka 消费者中使用这两个钩子函数：

import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.TopicPartition;
import java.time.Duration;
import java.util.*;

public class RebalanceHooksExample {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "rebalance-hooks-group");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());

        KafkaConsumer consumer = new KafkaConsumer<>(props);

        consumer.subscribe(Collections.singletonList("test-topic"), new ConsumerRebalanceListener() {
            @Override
            public void onPartitionsRevoked(Collection partitions) {
                System.out.println("Partitions revoked: " + partitions);
                // 提交偏移量
                consumer.commitSync();
            }

            @Override
            public void onPartitionsAssigned(Collection partitions) {
                System.out.println("Partitions assigned: " + partitions);
                // 初始化本地缓存
                Map localCache = new HashMap<>();
                for (TopicPartition partition : partitions) {
                    localCache.put(partition, 0);
                }
            }
        });

        try {
            while (true) {
                ConsumerRecords records = consumer.poll(Duration.ofMillis(100));
                for (ConsumerRecord record : records) {
                    System.out.println("Received message: " + record.value());
                    // 处理消息，更新本地缓存等操作
                }
            }
        } finally {
            consumer.close();
        }
    }
}

在上述代码中，我们创建了一个 Kafka 消费者，并在subscribe方法中传入了一个实现了ConsumerRebalanceListener接口的匿名内部类。在这个内部类中，实现了onPartitionsRevoked和onPartitionsAssigned方法。当再平衡发生时，onPartitionsRevoked方法会被调用，输出被撤销的分区信息，并提交偏移量；onPartitionsAssigned方法会被调用，输出新分配的分区信息，并初始化一个本地缓存。通过这种方式，我们可以灵活地控制在分区再平衡过程中的行为，满足不同的业务需求。

七、策略选择与优化建议

7.1 如何选择合适的分配策略

在实际应用中，选择合适的 Kafka 分区分配策略至关重要，它直接影响到系统的性能、稳定性和可靠性。以下是根据不同业务场景和需求选择分配策略的一些建议：

消费者数量和分区数量的比例：当分区数量能被消费者数量整除时，RangeAssignor 策略可以保证分区分配的均匀性，使每个消费者负载相对均衡，此时可以优先考虑使用该策略。比如在一个日志收集系统中，如果有 4 个分区和 2 个消费者，且分区数能被消费者数整除，使用 RangeAssignor 策略可以将分区均匀分配给消费者，提高日志处理效率。然而，当分区数量不能被消费者数量整除时，RangeAssignor 策略会导致分区分配不均衡，部分消费者可能负载过高。在这种情况下，如果追求分区分配的绝对均衡，RoundRobinAssignor 策略或 StickyAssignor 策略可能更合适。例如，在一个数据处理系统中，分区数为 5，消费者数为 2，使用 RoundRobinAssignor 策略可以更均匀地分配分区，避免部分消费者过载。
消费者订阅信息的一致性：如果消费组内所有消费者的订阅信息相同，RoundRobinAssignor 策略能够实现分区的均匀分配，确保每个消费者的负载均衡，是比较理想的选择。例如，在一个分布式的实时数据分析系统中，所有消费者都订阅了相同的主题，使用 RoundRobinAssignor 策略可以充分利用每个消费者的处理能力，提高整体的分析效率。但当消费者订阅信息不同时，RoundRobinAssignor 策略可能会导致分区分配不均匀，此时 StickyAssignor 策略可能更具优势，因为它在保证分区分配均衡的同时，还能尽量保持与上次分配相同，减少不必要的分区变动。比如在一个多租户的消息处理系统中，不同租户的消费者订阅的主题不同，使用 StickyAssignor 策略可以在满足不同租户需求的同时，保证系统的稳定性。
对分区分配均衡性和稳定性的要求：如果业务对分区分配的均衡性要求较高，且希望减少因分区重新分配带来的系统开销和潜在风险，StickyAssignor 策略是最佳选择。它通过尽量保持与上次分配相同，减少了分区重分配时的变动，降低了系统资源的损耗，提高了系统的稳定性。在一个需要长期稳定运行的大数据处理系统中，使用 StickyAssignor 策略可以减少因分区重新分配导致的服务中断和数据处理异常的风险。而如果业务对分区分配的稳定性要求相对较低，更注重实现简单和性能高效，RangeAssignor 策略或 RoundRobinAssignor 策略可能更适合。例如，在一些对实时性要求较高但对分区分配稳定性要求不高的场景中，如实时监控系统，使用 RangeAssignor 策略或 RoundRobinAssignor 策略可以快速实现分区分配，满足系统对实时性的需求。

7.2 优化分配策略的方法

为了进一步提升 Kafka 分区分配策略的性能和稳定性，可以采取以下优化方法：

合理设置消费者参数：session.timeout.ms参数用于设置消费者会话超时时间，如果消费者在这个时间内没有发送心跳给 GroupCoordinator，就会被认为已下线，从而触发分区再平衡。适当增大这个参数的值，可以减少因网络波动等短暂故障导致的不必要的再平衡。例如，在一个网络环境不太稳定的分布式系统中，将session.timeout.ms从默认的 10 秒增大到 30 秒，可以有效减少因网络瞬间中断而触发的再平衡，提高系统的稳定性。heartbeat.interval.ms参数用于设置消费者发送心跳的时间间隔，它应该小于session.timeout.ms，并且建议设置为session.timeout.ms的三分之一。合理调整这个参数，可以优化心跳机制，确保 GroupCoordinator 能够及时检测到消费者的健康状态，同时避免过多的心跳请求导致网络开销过大。比如，当session.timeout.ms设置为 30 秒时，heartbeat.interval.ms可以设置为 10 秒，这样既能保证及时检测消费者状态，又不会给网络带来过多负担。
避免不必要的分区再平衡：尽量减少消费者的频繁加入和退出消费者组，因为每次消费者的变动都会触发分区再平衡，而分区再平衡过程中，消费者会暂停消费，这可能会导致数据处理延迟和系统性能下降。在一个电商订单处理系统中，如果频繁有消费者节点因为资源不足而被重启，导致它们频繁加入和退出消费者组，就会频繁触发再平衡，影响订单处理的及时性。因此，要合理规划消费者组的规模和生命周期，确保消费者的稳定性。同时，避免在系统高峰期进行分区数量的调整，因为这也会触发再平衡。如果确实需要调整分区数量，应选择在系统负载较低的时间段进行，以减少对业务的影响。例如，在一个社交媒体平台的用户行为数据处理系统中，要增加主题的分区数量，应选择在凌晨用户活跃度较低的时候进行，避免在白天用户活跃高峰期操作，从而减少对系统性能的影响。
监控消费者负载：使用 Kafka 的监控工具（如 JMX、Prometheus 和 Grafana 等）实时监控消费者的负载情况，包括每个消费者处理消息的速率、内存使用情况、CPU 使用率等指标。通过监控这些指标，可以及时发现负载过高或过低的消费者，进而采取相应的措施进行调整。比如，如果发现某个消费者的处理消息速率明显低于其他消费者，可能是该消费者所在的节点资源不足，或者是消费逻辑存在问题，可以考虑调整资源分配或优化消费逻辑。根据监控数据，定期调整分区分配策略和消费者配置，以适应业务量的变化。例如，随着业务的发展，某个主题的消息量逐渐增加，原来的分区分配策略可能无法满足需求，此时可以根据监控数据，调整分区分配策略，或者增加消费者数量，以提高系统的处理能力。在一个在线教育平台的课程观看数据处理系统中，随着课程的推广，观看人数增多，消息量增大，通过监控发现原来的两个消费者处理不过来，于是增加了一个消费者，并调整了分区分配策略，从而保证了系统的高效运行。

八、总结

本文深入探讨了 Kafka 分区与消费者分配策略，涵盖了多个关键方面。在分区基础概念上，明确了分区是主题的物理划分，通过将主题划分为多个分区，实现了消息的分散存储和并行处理，进而提高了数据读写性能、实现负载均衡、增强系统扩展性并保证消息顺序性。

消费者分配策略方面，介绍了其核心原理及重要性。该策略由消费者组协调器管理，通过一系列步骤实现分区的合理分配。详细阐述了三种常见的分配策略：RangeAssignor 策略按消费者总数和分区总数进行整除运算来分配分区，在分区数能被消费者数量整除时可保证分配均匀，但否则可能导致分配不均衡；RoundRobinAssignor 策略将消费组内所有消费者以及消费者订阅的所有主题的分区按照字典序排序，通过轮询方式分配分区，在消费者订阅信息相同时能实现均匀分配，否则可能分配不均；StickyAssignor 策略则兼顾分区分配的均匀性和与上次分配的一致性，减少分区重分配时的变动，降低系统开销。

还介绍了如何实现自定义分配策略，通过实现 ConsumerPartitionAssignor 接口，开发者可以根据业务需求定制分区分配逻辑，满足特定的数据处理需求、消费者负载要求以及结合业务规则进行分区分配。

在分区再平衡与钩子函数部分，分析了分区再平衡的触发条件和详细过程，以及 onPartitionsRevoked 和 onPartitionsAssigned 这两个钩子函数在再平衡过程中的作用和使用方法，它们为开发者提供了在分区分配变化时执行自定义逻辑的机会。

最后，给出了选择合适分配策略的建议，以及优化分配策略的方法，包括合理设置消费者参数、避免不必要的分区再平衡和监控消费者负载等，以提升 Kafka 分区分配策略的性能和稳定性。

你可能感兴趣的:(Kafka分区分配策略：深入剖析与实战指南)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
别再讲道理啦，对方听不进去的方所
我之前写过一篇叫做《你总妄想改变他人》，然后就有朋友跟我说，有一些方法可以改变他人之类的。嗯，是这样，但是任何具体的问题，都要限定好语境，描述清楚前提条件，然后再表达观点，我的这位朋友的说法就犯了一刀切的错误，这样并不能让讨论正常展开（这篇我得先给她看看，不然可能会挨揍）。好了，hhhh，谁让她不能写文章呢，我就来再说一说吧。我前面说过，我们在学到一个道理、学会一种方法之后，总是迫不及待地想要去与
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
《实际生活是我们的指南针》——教育中寻找曙光托克托126何芳
陶行知先生的文章相对《致青年教师》比较难理解，但是他热爱学生,在书中处处能感受到。在《实际生活是我们的指南针》文中他说道:“我虽觉得我有好多地方可以帮助诸位,但指志针确是有些不敢当。我和诸位同是在乡村里摸路的人。我们的真正指南针只是实际生活。”这些话不仅使人感到他非常谦虛,既不夸大自己的作用也不轻视自己的作用。图片发自App我们的真正指南针只是实际生活。实际生活向我们供给无穷的问题,要求不断的解决
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
车载刷写架构 --- 整车刷写中为何增加了ECU 队列刷写策略？汽车电子实验室电子电器架构——刷写方案车载电子电气架构架构开发语言车载诊断进阶篇汽车中央控制单元HPC软件架构关于网关转发性能引起的思考
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧!旧人不知我近况，新人不知我过往，近况不该旧人知，过往不与新人讲。纵你阅人何其多，再无一人恰似我。时间不知不觉中，来到新的一年。2025开始新的忙碌。成年人的我也不知道去哪里渡
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
【老房翻新】92平轻奢简约风，将和谐之美融入空间！没人比我更懂装修
在客厅空间中，设计师于冷静的空间基调中选用了层次感丰富的黄蓝色作为主要跳色，搭配黑白纹理的地毯与单椅，为空间增加了时尚摩登的气息。艺术感的单品突出点亮了空间，绿植的点缀、留白的软饰则增强了空间的呼吸性。点击此处添加图片说明文字点击此处添加图片说明文字设计师力求使每一处的设立都在空间中达到相互间的呼应与制衡，将艺术的跃动之美赋于空间之上，也将空间的和谐之美融于生活之中。点击此处添加图片说明文字点击此
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

Kafka分区分配策略：深入剖析与实战指南

一、引言

二、Kafka 分区基础概念​

2.1 什么是分区​

2.2 分区的作用​

三、消费者分配策略核心​

3.1 为什么需要分配策略​

3.2 分配策略的工作机制​

四、三种常见分配策略详解​

4.1 RangeAssignor 策略​

4.2 RoundRobinAssignor 策略​

4.3 StickyAssignor 策略​

五、自定义分配策略实战​

5.1 实现 ConsumerPartitionAssignor 接口​

5.2 自定义策略的应用场景​

六、分区再平衡与钩子函数​

6.1 分区再平衡（Rebalance）​

6.2 钩子函数（onPartitionsRevoked/onPartitionsAssigned）​

七、策略选择与优化建议​

7.1 如何选择合适的分配策略​

7.2 优化分配策略的方法​

八、总结

你可能感兴趣的:(Kafka分区分配策略：深入剖析与实战指南)

二、Kafka 分区基础概念

2.1 什么是分区

2.2 分区的作用

三、消费者分配策略核心

3.1 为什么需要分配策略

3.2 分配策略的工作机制

四、三种常见分配策略详解

4.1 RangeAssignor 策略

4.2 RoundRobinAssignor 策略

4.3 StickyAssignor 策略

五、自定义分配策略实战

5.1 实现 ConsumerPartitionAssignor 接口

5.2 自定义策略的应用场景

六、分区再平衡与钩子函数

6.1 分区再平衡（Rebalance）

6.2 钩子函数（onPartitionsRevoked/onPartitionsAssigned）

七、策略选择与优化建议

7.1 如何选择合适的分配策略

7.2 优化分配策略的方法