让线程再跑一会

Kafka（三）【Broker 存储】

前言

Kafka Broker

1、工作流程

1.1、Zookeeper 存储的 Kafka 信息

1.2、Kafka Broker 的总体工作流程

1.3、Broke 重要参数

2、Kafka 副本

2.1、副本基本信息

2.2、Keader 选举流程

2.3、Leader 和 Follower 的故障处理细节

Follower 故障

Leader 故障：

2.4、分区副本分配

2.5、生产经验—手动调整分区副本存储

2.6、生产经验—Leader Partition 负载均衡

2.7、生产经验—增加副本因子

3、文件存储

3.1、文件存储机制

1）Topic 数据的存储机制

2）index 文件和log文件

3.2、文件清理策略

1）delete日志删除：将过期数据删除

2）compact 日志压缩

使用场景

4、高效读写数据（面试重点）

总结

前言

今天学习 Kafka 的第二部分 Broker，相比较 Flink ，Kafka 的流式数据处理还是比较好理解的。

Kafka Broker

环境准备：

启动 Zookeeper
启动 Kafka

1、工作流程

我们先看看 Zookeeper 中存储了 Kafka 的哪些信息，它俩是如何协调工作的，

1.1、Zookeeper 存储的 Kafka 信息

我们需要在任意节点启动 Zookeeper 客户端：

# 启动zookeeper客户端
bin/zkCli.sh
# 查看信息
ls /kafka/brokers/ids

/kafka/brokers/ids

可以看到，我们当前启动了三个 Kafka broker节点。

/kafka/brokers/topics/

这个目录下我们可以看到指定主题的分区信息：

/kafka/consumers/

0.9 版本之前用于保存 offset 信息
0.9版本之后 offset 存储在 kfaka 主题中

/kafka/controller

辅助节点选举，这个 controller 是谁取决于哪个节点先在 /kafka/controller 中注册的。在Kafka中，controller负责管理整个集群中所有分区和副本的状态。当检测到某个分区的ISR集合（ISR 就是所有 leader 和 follower 节点之间同步正常的节点集合）发生变化时，controller会负责通知所有broker更新其元数据信息。

1.2、Kafka Broker 的总体工作流程

broker 节点启动后会先去 zookeeper 注册（注册到 /kafka/brokers/ids）代表自己活着
然后每个 broker 节点的 controller （每个 broker 节点都有一个 controller）会去zookeeper的 controller 注册一个临时节点（注册到 /kafka/controller），先注册的节点就是 controller ，因为只有一个Kafka Broker会注册成功，其他的都会失败，所以这个成功在Zookeeper上注册临时节点的Kafka Broker会成为Kafka Broker Controller，其他的Kafka broker 叫 Kafka Broker follower。
选举出来的 controller 会负责管理整个集群中所有分区和副本的状态
controller 同时负责 Leader 的选举，选举规则是：首先要成为leader必须是存在于 ISR 中节点，其次按照这些节点在 AR 中的排名（AR 是 Kafak 分区中所有副本的统称），排在前面的节点优先成为 leader
controller 节点将分区状态信息（当前集群的leade、isr ...）上传到 zookeeper （比如上传到 /kafka/brokers/topics/like/partitions/0/state）
其他 controller 去 zookeeper 拉取集群分区状态信息（防止 controller 挂了）
假设 leader 挂了
controller 会立即检测到这个变化
controller 从 zookeeper 中拉取回来集群分区状态信息，继续进行选举
选举的前提依然是必须存活于 ISR 队列，之后按照 AR 中的排列顺序，排在前面的优先成为 leader
选举完之后，controller 再次更新 zookeeper 中的集分区状态信息

1.3、Broke 重要参数

参数名称	描述
replica.lag.time.max.ms	ISR中，如果Follower长时间未向Leader发送通信请求或同步数据，则该Follower将被踢出ISR。该时间阈值，默认30s。
auto.leader.rebalance.enable	默认是true。自动Leader Partition 平衡。
leader.imbalance.per.broker.percentage	默认是10%。每个broker允许的不平衡的leader的比率。如果每个broker超过了这个值，控制器会触发leader的平衡。
leader.imbalance.check.interval.seconds	默认值300秒。检查leader负载是否平衡的间隔时间。
log.segment.bytes	Kafka中log日志是分成一块块存储的，此配置是指log日志划分成块的大小，默认值1G。
log.index.interval.bytes	默认4kb，kafka里面每当写入了4kb大小的日志（.log），然后就往index文件里面记录一个索引。
log.retention.hours	Kafka中数据保存的时间，默认7天。
log.retention.minutes	Kafka中数据保存的时间，分钟级别，默认关闭。
log.retention.ms	Kafka中数据保存的时间，毫秒级别，默认关闭。
log.retention.check.interval.ms	检查数据是否保存超时的间隔，默认是5分钟。
log.retention.bytes	默认等于-1，表示无穷大。超过设置的所有日志总大小，删除最早的segment。
log.cleanup.policy	默认是delete，表示所有数据启用删除策略；如果设置值为compact，表示所有数据启用压缩策略。
num.io.threads	默认是8。负责写磁盘的线程数。整个参数值要占总核数的50%。
num.replica.fetchers	副本拉取线程数，这个参数占总核数的50%的1/3
num.network.threads	默认是3。数据传输线程数，这个参数占总核数的50%的2/3 。
log.flush.interval.messages	强制页缓存刷写到磁盘的条数，默认是long的最大值，9223372036854775807。一般不建议修改，交给系统自己管理。
log.flush.interval.ms	每隔多久，刷数据到磁盘，默认是null。一般不建议修改，交给系统自己管理。

2、Kafka 副本

2.1、副本基本信息

Kafka副本作用：提高数据可靠性。
Kafka默认副本1个，生产环境一般配置为2个，保证数据可靠性；太多副本会增加磁盘存储空间，增加网络上数据传输，降低效率。
Kafka中副本分为：Leader和Follower。Kafka生产者只会把数据发往Leader，然后Follower找Leader进行同步数据。Kafka 中，生产者和消费者只能针对 Leader 进行操作。
Kafka分区中的所有副本统称为AR（Assigned Repllicas）。

AR = ISR + OSR

ISR，表示和Leader保持同步的Follower集合。如果 Follower 长时间未向Leader发送通信请求或同步数据，则该Follower将被踢出ISR（踢出到 OSR）。该时间阈值由replica.lag.time.max.ms参数设定，默认30s。Leader发生故障之后，就会从 ISR 中选举新的Leader。

OSR，表示Follower与Leader副本同步时，延迟过多的副本（特定条件下会恢复到 ISR）。

2.2、Keader 选举流程

Kafka集群中有一个 broker 的 Controller 会被选举为 Controller Leader，负责管理集群broker的上下线，所有 topic 的分区副本分配和Leader选举等工作。

Controller的信息同步工作是依赖于Zookeeper的。

接下来我们来验证一下：

1. 创建一个新的topic，3个分区，3个副本

./kafka-topics.sh --bootstrap-server hadoop102:9092 -create --topic buy --partitions 3 -replication-factor 3

2. 查看 Leader 分布情况

注意区分 AR 和 ISR：

3. 停止掉hadoop103 的 kafka 进程，并查看Leader分区情况

上面的图中我们可以看到hadoop103上的副本一共有 3 个，分别存在节点 [2,0,1] 上，并且当前的副本 leader 是 2，现在我们把 hadoop103 节点的 kafka 进程停掉，相当于保存在分区 1 的副本全部故障，而我们分区 3 中的副本的 leader 刚好是节点1，所以要把副本的 leader 进行更新，要按照理论应该是 2 号节点继续上任副本 leader 的位置。

我们发现，我们分区 3 的副本 leader 原本存在分区2 中，但是现在分区 2 挂掉了，所以它会从自己的 AR 中选一个在前面的节点 [2,0]，于是分区2 中的副本 leader 变成了节点 2。

4. 我们再恢复一下hadoop103

[lyh@hadoop103 bin] ./kafka-server-start.sh -daemon ../config/server.properties

2.3、Leader 和 Follower 的故障处理细节

概念：

LEO（Log End Offset）：每个副本中最后一个 offset ，LEO 就是最新的 offset +1
HW（High Watermark）：所有副本中最小的 LEO

Follower 故障

Leader 故障：

注意：只能保证副本之间的数据一致性，并不能保证数据不丢失或者不重复！

比如上面，我们的 leader 一开始是节点0，但是 leader 挂掉之后，leader 变成了节点1，但是新的leader 显然比旧的 leader 的数据少了3条，所以这部分数据就丢失了（毕竟自己处理问题总不能让人家生产者再发送一遍）。

2.4、分区副本分配

如果kafka服务器只有3个节点，那么设置kafka 的分区数大于服务器台数，在kafka底层如何分配存储副本呢？

注意：分区数可以大于机器数，毕竟大不了一个机器上多存几个分区，但是副本数不能大于机器数，那样没有意义，而且 Kafka 会报错：

我有三台机器，上面试着创建了 5 个副本的一个 topic，报错不能超过机器数量。

1）创建12分区，3个副本

./kafka-topics.sh -bootstrap-server hadoop102:9092 --create --topic card --partitions 12 --replication-factor 3

2）查看分区和副本信息

我们可以看到，Kafka 使得我们每个副本的 Leader 都尽可能的不一样，这样很好地分担了读写压力，毕竟Kafka 生产者和消费者都是只对分区 leader 进行操作的。每4个分区对应一个副本，而且每一个副本的 AR 顺序 Kafka 都尽量使它们不一样，这样可以尽可能做到负载均衡。

2.5、生产经验—手动调整分区副本存储

生产环境中，每台服务器的配置和性能都不一致，但是 Kafka 只会根据自己的代码创建对应的分区副本，就会导致个别服务器存储压力比较大。所以需要手动调整分区副本的存储。

需求：创建一个新的 topic ，4个分区，两个副本。我们将该 topic 的所有副本都存储到 hadoop102 和 hadoop103 上，hadoop104 不存储任何数据。

1）创建一个新的 topic 叫做 card ，4个分区，2个副本

2）查看分区副本信息

3）创建副本存储计划（所有副本都指定存储在hadoop102、hadoop103中）。

4）执行副本存储计划

bin/kafka-reassign-partitions.sh --bootstrap-server hadoop102:9092 --reassignment-json-file increase-repliaction-factor.json --execute

5）验证副本存储计划

bin/kafka-reassign-partitions.sh --bootstrap-server hadoop102:9092 --reassignment-json-file increase-repliaction-factor.json --verify

6）查看分区副本存储情况

2.6、生产经验—Leader Partition 负载均衡

正常情况下，Kafka 本身会自动把 Leader Partition 均匀分散在各个机器上，来保证每台节点的吞吐量都是均匀的。但是如果某些 broker 节点宕机，会导致 leader partition 过于集中在其他少部分几台 broker 节点上，这会导致少数几台 broker 节点的读写压力过高，而且即使这些宕机的 broker 再次恢复上线，也只是 follower partition ，不会再次恢复为 leader partition，造成集群负载不均衡。

auto.leader.rebalance.enable，more为 true。自动 Leader partition 平衡
leader.imbalance.per.broker.percentag，默认是 10%，每个 broker 允许不平衡的leader的比率。如果超过这个值，控制器会触发 leader 的平衡。
leader.imbalance.check.interval.seconds，默认300s，也就是每300s检查一次leader负载是否平衡。

在生产环境中，通常不建议开启自动平衡，因为这可能会影响性能。

2.7、生产经验—增加副本因子

假设我们创建了一个主题并设置副本数为 1 ，但是后来我们发现这部分数据特别重要，于是想要增加副本数，怎么办呢？通过命令行是不行的，得像我们上面 2.5 手动调整分区副本一样，通过 json 文件来修改。

手动增加副本存储

1）创建副本存储计划（所有副本都指定存储在hadoop102、hadoop103、hadoop104中）

vim increase-replication-factor.json
# 输入下面的内容
{"version":1,"partitions":[{"topic":"four","partition":0,"replicas":[0,1,2]},{"topic":"four","partition":1,"replicas":[0,1,2]},{"topic":"four","partition":2,"replicas":[0,1,2]}]}

2）执行副本存储计划

bin/kafka-reassign-partitions.sh --bootstrap-server hadoop102:9092 --reassignment-json-file increase-replication-factor.json --execute

3、文件存储

3.1、文件存储机制

1）Topic 数据的存储机制

Topic是逻辑上的概念，而 partition 是物理上的概念，每个 partition 对应一个 log 文件，该 log 文件中存储的就是 producer 产生的数据。producer 产生的数据会被不断追加（追加是 Kafka 能够高效读写的一个重要原因）到该 log 文件末端，且每条数据都有自己的 offset 。消费者组中的每个消费者，都会实时记录自己消费到了哪个offset，以便出错恢复时，从上次的位置继续消费。为防止 log 文件过大导致数据定位效率低下，Kafka 采取了分区和索引机制，将每个 partition 分为多个 segment 。每个 segment 包括多个：“.index”文件、“.log”文件和 .timeindex 等文件（.timeindex 是一个时间戳索引文件，描述了文件保存时间，因为 Kafka 中的数据默认为保存 7 天才会自动删除，而判断文件日期是否达到7天就需要判断这个文件）。这些文件位于一个文件夹下，文件夹的命名规则为：topic名称+分区序号，例如：like-0。

# 000000~170409
00000000000000000000.index
00000000000000000000.log
# 170410~239429
00000000000000170410.index
00000000000000170410.log
# 239430~
00000000000000239430.index
00000000000000239430.log

验证：

1. 查看 kafka 的 data 目录下的 topic 数据

2. 这些文件因为都是经过序列化的所以都是乱码，需要使用 Kafka 提供的一个工具来看：

# 查看 .index 文件
kafka-run-class.sh kafka.tools.DumpLogSegments --files ./00000000000000000015.index 
# 查看 .log 文件
kafka-run-class.sh kafka.tools.DumpLogSegments --files ./00000000000000000015.log

2）index 文件和log文件

kafka 的 index 是稀疏索引，大约每往 .log 文件中写入 4KB 数据，会往 .index 文件写入一条索引。参数 log.index.interval.bytes 默认 4kb；
index 文件中保存的 offset 是相对 offset，这样能确保 offset 的值所占空间不会太大，因此能将 offset 的值控制在固定大小。
一个 segment 文件大小 1GB

现有索引文件 000000.index,0000522.index,000001005.index ,如何在 log 文件中定位到 offset=600 的record？

offset=600，offset 大于522 小于 1005，说明就要找的文件索引就在 522.index 文件中，所以去 00000522.index 文件中
000001005.index 文件中的数据有多行，因为每4kb数据就会往这个文件写一条记录

可以看到 587 就是我们的 index 文件名中的基础offset+相对offset得到的，计算得到 587 后我们发现要找的 offset=600 是大于 587 小于 639 的，说明要找的 record 就在这一行。于是查看 position 得到 6410，接着查看 log文件。

找到 000000522.index 对应的 000000522.log 文件，这个 log 文件同样有一个 position 属性，我们要找的 6410 刚好在log文件中就有一条记录的position= 6410，这就找到了。如果我们要找的position=6415，那么我们就得找到介于这个值中间的数据，因为 6410 < 6415 <10090 所以我们要找的 position=6415的数据就在 6410这一行。

3.2、文件清理策略

Kafka中默认的日志保存时间为7天，可以通过调整如下参数修改保存时间。

log.retention.hours（int），最低优先级小时，默认7天。
log.retention.minutes（int），分钟。
log.retention.ms（long），最高优先级毫秒。
log.retention.check.interval.ms，负责设置检查周期，默认5分钟。

这四个参数的优先级从上到下越来越高，也就是说当我们设置了日志保存参数为 ms 级别时，前面设置的 hours 和 minutes 级别的参数就都失效了。

那么日志一旦超过了设置的时间，怎么处理呢？

Kafka中提供的日志清理策略有 delete 和 compact 两种。

1）delete日志删除：将过期数据删除

log.cleanup.policy = delete 所有数据启用删除策略

（1）基于时间：默认打开。以segment中所有记录中的最大时间戳作为该文件时间戳。

（2）基于大小：默认关闭。超过设置的所有日志总大小，删除最早的segment。

log.retention.bytes（long），默认等于-1，表示无穷大。

思考：如果一个segment中有一部分数据过期，一部分没有过期，怎么处理？

当然是以segment中所有记录中的最大时间戳作为该文件时间戳，所以即使数据有99.9%是旧的，只要有0.01%是新的数据，就得等它过期了才能删除。

2）compact 日志压缩

compact 日志压缩：对于相同的 key 的不同 value 只保留最后一个版本。

要使用这个功能，只需要修改配置

log.cleanup.policy=compact

使用场景

这种压缩只能用于特定场景，比如消息的 key 是用户id，value是用户的资料，通过这个压缩，整个消息集里就保存了所有用户最新的信息。

4、高效读写数据（面试重点）

1）Kafka本身是分布式集群，可以采用分区技术，并行度高

2）读数据采用稀疏索引，可以快速定位要消费的数据

3）顺序写磁盘

Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到600M/s，而随机写只有100K/s。这与磁盘的机械结构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。

4）页缓存 + 零拷贝技术

零拷贝：Kakfa 把对数据操作的步骤放到了生产者和消费者当中（生产者和消费者可以在拦截器来对数据进行处理），所以 Kafka Broker 应用层并不关心数据的存储，所以数据都不需要走应用层，直接走网卡就可以传输费消费者，传输效率高。

pageCache 页缓存：Kafka 重度依赖底层操作系统提供的 PageCache 功能。当上层有写操作时，操作系统只是将数据写入 pageCache。当读操作发生时，先从 pageCache 中查找，如果找不到，再去磁盘读取。实际上 pageCache 是尽可能把更多的空闲内存空间都当做了磁盘缓存来使用。

参数	描述
log.flush.interval.messages	强制页缓存刷写到磁盘的条数，默认是long的最大值，9223372036854775807。一般不建议修改，交给系统自己管理。
log.flush.interval.ms	每隔多久，刷数据到磁盘，默认是null。一般不建议修改，交给系统自己管理。

总结

这一节用到的 prettyZoo 挺震撼我的，JavaFX 能开发出如此漂亮使用的一款软件，实在让我想不到，希望自己写的软件有一天也可以为百千人使用。

Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
2025最新系统 Git 教程（七）（完结）嘿rasa 2025最新教程系列 git
第4章分布式Git4.1分布式Git-分布式工作流程你现在拥有了一个远程Git版本库，能为所有开发者共享代码提供服务，在一个本地工作流程下，你也已经熟悉了基本Git命令。你现在可以学习如何利用Git提供的一些分布式工作流程了。这一章中，你将会学习如何作为贡献者或整合者，在一个分布式协作的环境中使用Git。你会学习为一个项目成功地贡献代码，并接触一些最佳实践方式，让你和项目的维护者能轻松地完成这个过
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
Spring Security OAuth2.0在分布式系统中的安全实践
引言分布式系统架构下，安全认证与授权面临跨服务、高并发、多租户等挑战。SpringSecurity与OAuth2.0的结合为微服务安全提供了标准化解决方案。分布式系统中的安全挑战跨服务身份认证的复杂性令牌管理的可扩展性问题多租户场景下的权限隔离需求防止CSRF、XSS等常见攻击SpringSecurityOAuth2.0核心架构授权服务器设计@EnableAuthorizationServer配置
【Spring WebFlux】为什么 Spring 要拥抱响应式会飞的架狗师 Spring WebFlux spring java 后端
在现代分布式系统中，响应式系统已成为应对高并发、低延迟需求的核心方案。但构建响应式系统并非易事——它需要框架级别的支持来解决异步处理、资源调度、背压控制等底层问题。作为Java生态中最具影响力的框架，Spring对响应式的支持并非偶然，而是技术演进的必然选择。本文将从响应式系统的构建挑战出发，剖析Spring拥抱响应式的底层逻辑。一、响应式系统的构建困境：现有方案的局限性响应式系统的核心诉求是在有
涵盖轻量级锁（SpinLock）与操作系统同步原语（如 CRITICAL_SECTION）的性能优化、Monitor 的原子性和数据竞争防护、Monitor.Wait 和 Pulse 在生产者-消费者 zhxup606 C#实战教程李工篇 wpf 开发语言 C#
涵盖轻量级锁（SpinLock）与操作系统同步原语（如CRITICAL_SECTION）的性能优化、Monitor的原子性和数据竞争防护、Monitor.Wait和Pulse在生产者-消费者中的作用、控制线程执行顺序、Thread.Join的含义、避免嵌套锁的锁顺序策略，以及防止伪唤醒的条件检查。每个问题包括核心概念、实现细节、与之前讨论的关联（如线程池、进程间同步、分布式同步）、代码示例、测试用
Seata与DTF框架在微服务中的选型对比策划加强小乔微服务架构云原生
在微服务架构中，分布式事务管理是确保数据一致性的关键环节。Seata和DTF作为两款主流的分布式事务解决方案，各自具有独特的优势和适用场景。以下从核心原理、功能特性、适用场景和实战案例等维度进行详细对比分析，并提供选型建议。核心架构与工作原理Seata：采用经典的分布式事务模型，支持AT（自动补偿）、TCC（Try-Confirm-Cancel）、SAGA和XA四种模式。AT模式通过全局锁实现数据
python中的 JWT weixin_34355881 python json php
Jsonwebtoken(JWT),是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准（(RFC7519).该token被设计为紧凑且安全的，特别适用于分布式站点的单点登录（SSO）场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息，以便于从资源服务器获取资源，也可以增加一些额外的其它业务逻辑所必须的声明信息，该token也可直接被用于认证，也可被加密。基
一篇教你学会Git 编程界的彭于晏qaq java GIT git
从安装到高级使用（2025最新版）引言：为什么Git是开发者必备技能Git（GlobalInformationTracker）作为最流行的分布式版本控制系统，由Linux之父LinusTorvalds于2005年创建，现已成为软件开发的基础设施。与传统集中式版本控制系统（如SVN）相比，Git具有三大核心优势：分布式架构：每个开发者本地都有完整仓库副本，支持离线工作高效分支管理：创建和切换分支几乎
Mybatisplus的雪花算法及代码生成器的使用你我约定有三算法 dreamweaver
1.雪花算法1.1背景:雪花算法（Snowflake）的使用背景主要源于高并发分布式系统环境下对唯一ID生成的需求。这种需求在像Twitter这样的社交媒体平台上尤为突出，因为Twitter需要处理每秒上万条消息的请求，并且每条消息都必须分配一个唯一的ID。这些ID不仅需要全局唯一，以跨机器、跨时间区分，还需要保持一定的顺序性（尽管不要求连续），以方便客户端排序和后续的数据处理。1.2与自动递增的
分布式IO选型指南：2025年分布式无线远程IO品牌及采集控制方案详解 2501_91398178 分布式分布式IO模块远程IO模块
近年来，随着工业物联网（IIoT）、智能制造和工业4.0的深入发展，分布式无线远程IO模块在工业控制领域的应用愈发广泛。这种模块通过无线方式实现远程数据采集与控制，极大地提高了工业设施的灵活性和效率。2025年，分布式IO市场呈现出技术革新与品牌竞争加剧的态势。本文基于权威数据平台（如Statista、MarketsandMarkets、GrandViewResearch）的市场分析，全面解读分布
基本服务 FTP & SMB 会飞的灰大狼 Centos7 linux
基本服务FTP&SMB前言：FTP简称为文件传输协议前面说的他可以做到备份的功能那么它可以做到文件传输的过程smb我们简单来说共享文件夹‍NFSNFS（NetworkFileSystem，网络文件系统）是一种分布式文件系统协议，允许不同计算机之间通过网络共享文件和目录，使远程文件系统像本地文件系统一样被访问。它最初由SunMicrosystems开发，现在已成为UNIX/Linux系统中常用的网络
分布式事务Seata的4种模式详解「已注销」分布式 wpf
Seata是一个开源的分布式事务解决方案，它在微服务架构下提供了高性能和简单易用的分布式事务服务。Seata的设计基于AT、TCC、Saga和XA事务模式，以满足不同场景下的分布式事务处理需求，今天的内容针对Seata来详细介绍一下。1、四种事务模式介绍1.AT模式：这是一种无侵入的分布式事务解决方案。用户只需关注自己的业务SQL，Seata框架会自动生成事务的二阶段提交和回滚操作。在一阶段，Se
分布式IO详解：2025年分布式无线远程IO采集控制方案选型指南 2501_91398178 分布式分布式IO
随着工业物联网（IIoT）和智能制造的快速发展，分布式远程IO（输入/输出）采集控制技术作为工业自动化系统的重要组成部分，正逐步取代传统集中式控制架构。这种技术广泛应用于工厂自动化、能源管理、智慧城市、过程控制等领域。2025年，分布式无线远程IO系统凭借其灵活性、低功耗和高可靠性，成为工业控制领域的核心解决方案。本文基于权威数据平台分析，详细解读分布式无线远程IO技术，盘点全球领先厂商及其产品优
零基础学习性能测试第六章：性能难点-Jmeter实现海量用户压测
目录一、海量压测核心挑战与解决思路二、分布式压测集群搭建（百倍性能提升）1.架构设计2.实战步骤三、百万级用户参数化方案1.Redis预生成测试数据2.JMeter分段读取（避免内存溢出）3.CSV分片策略四、高并发优化配置模板1.`jmeter.properties`关键修改2.线程组配置技巧五、结果收集与监控方案1.轻量级结果存储2.实时监控看板六、海量压测实战案例：双11级流量模拟测试目标：
探索RabbitMQ，让消息传递变得简单易懂！黎杉娜Torrent
探索RabbitMQ，让消息传递变得简单易懂！当你寻找一个强大而可靠的分布式消息队列系统时，RabbitMQ无疑是最佳选择之一。这个开源项目已经赢得了全球无数开发者的喜爱，现在，更有一份详尽的【RabbitMQ中文】文档在等待你的探索！项目介绍RabbitMQ中文是一份专门为非英语国家的开发者准备的高质量翻译资源，它将原汁原味的RabbitMQ官方文档转化为中文，旨在帮助中国地区的开发者更好地理解
TiDB - 分布式数据库的架构与特性爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：TiDB是一个开源的分布式NewSQL数据库，受到了Google的Spanner/F1系统的启发。它提供水平扩展和强一致性事务，适用于需要高可用性和大规模数据处理的场景。TiDB的核心特点包括其分布式架构，由TiDBServer（SQL层）、PDServer（调度器）和TiKVServer（存储引擎）组成；支持无缝的水平扩展和ACID事务；与MySQL高度兼容
多通道 ISP（双 ISP）并行处理机制解析：架构演进、资源调度与实战配置路径观熵影像技术全景图谱：架构调优与实战接口隔离原则架构影像 Camera
多通道ISP（双ISP）并行处理机制解析：架构演进、资源调度与实战配置路径关键词：双ISP、并行图像处理、多Sensor管线、分布式调度、ISP平衡调度、帧同步、多路输入、SoC图像架构摘要：随着智能手机多摄系统的普及，传统单通道ISP架构已无法满足同时驱动多颗高分辨率摄像头、并发处理视频与拍照任务的性能需求。为此，各大SoC厂商纷纷引入“双ISP”或“多通道ISP”设计，用于提升吞吐能力、降低延
OpenSIPS 邂逅 Kafka：构建高效 VoIP 消息处理架构 c_zyer opensips SIP 消息队列 kafka opensips voip
使用场景使用步骤引入模块组装&发送数据消费数据故障转移使用场景异步日志处理：将OpenSIPS中的SIP信令日志、通话记录（CDR）等数据发送到Kafka队列中。事件通知与监控：利用OpenSIPS的event_interface模块将SIP事件（如呼叫建立、断开、注册等）推送到KafkaOpenSIPS中事件接口有以下类型：EVENT_DATAGRAM-PublishJSON-RPCnotifi
【链路追踪】 WIN赢面试专栏性能优化自动化
一、什么是链路追踪链路追踪（Tracing）是一种用于分布式系统中跟踪请求处理过程的技术。它通过记录一次请求在多个服务之间的流转路径、耗时、状态等信息，帮助开发人员快速定位问题、分析性能瓶颈，并理解系统中各组件的交互关系。链路追踪不仅是一种强大的监控手段，也是测试人员在分布式系统中不可或缺的测试工具。它能够帮助测试人员快速定位问题、分析性能瓶颈，并优化系统性能，从而提高测试效率和质量二、核心概念T
Kafka事务机制详解一碗黄焖鸡三碗米饭 Kafka全景解析 kafka 分布式 Java 副本事务分区大数据
目录Kafka事务机制详解1.Kafka中的事务概述2.Kafka事务的基本概念2.1精确一次处理（ExactlyOnceSemantics，EOS）2.2Kafka事务的工作流程3.Kafka事务的配置与使用3.1生产者端的事务配置3.2消费者端的事务配置4.Kafka事务的优势与限制4.1Kafka事务的优势4.2Kafka事务的限制5.总结在分布式系统中，事务性操作（如数据库事务）是非常重要
kafka的ISR机制详解 inori1256 kafka 分布式
Kafka的ISR机制ISR（In-SyncReplicas同步副本集）机制是一种用于确保数据可靠性和一致性的重要机制。一、ISR的定义ISR是指与Kafka分区中的Leader副本保持同步的Follower副本集合。这些副本已经复制了Leader副本的所有数据，并且它们的落后时间在一定范围内，因此被认为是可靠的、可以用于故障转移和数据恢复的副本。二、ISR的作用数据复制：当消息被写入Kafka的
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥密落霞归雁 AI编程教育电商微信开放平台 rabbitmq 中间件
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥秘在当今数字化时代，消息队列（MessageQueue，简称MQ）已经成为分布式系统中不可或缺的组件，而ApacheKafka作为其中的佼佼者，以其卓越的性能和广泛的应用场景脱颖而出。今天，就让我们用一句话读懂Kafka，并通过5W1H（What、Why、Who、When、Where、How）的方式，深入剖析它的核心价值与技术魅力。一句话读懂
Kafka——两种集群搭建详解 k8s Michaelwubo kafka 分布式
1、简介Kafka是一个能够支持高并发以及流式消息处理的消息中间件，并且Kafka天生就是支持集群的，今天就主要来介绍一下如何搭建Kafka集群。Kafka目前支持使用Zookeeper模式搭建集群以及KRaft模式（即无Zookeeper）模式这两种模式搭建集群，这两种模式各有各的好处，今天就来分别介绍一下这两种方式1.1、Kafka集群中的节点类型一个Kafka集群是由下列几种类型的节点构成的
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

Kafka（三）【Broker 存储】

前言

Kafka Broker

1、工作流程

1.1、Zookeeper 存储的 Kafka 信息

1.2、Kafka Broker 的总体工作流程

1.3、Broke 重要参数

2、Kafka 副本

2.1、副本基本信息

2.2、Keader 选举流程

2.3、Leader 和 Follower 的故障处理细节

Follower 故障

Leader 故障：

2.4、分区副本分配

2.5、生产经验—手动调整分区副本存储

2.6、生产经验—Leader Partition 负载均衡

2.7、生产经验—增加副本因子

3、文件存储

3.1、文件存储机制

1）Topic 数据的存储机制

2）index 文件和log文件

3.2、文件清理策略

1）delete日志删除：将过期数据删除

2）compact 日志压缩

使用场景

4、高效读写数据（面试重点）

总结

你可能感兴趣的:(kafka,kafka,分布式)