消息中间件巡检

除资源使用情况外,消息中间件RocketMQ、kafka还可以巡检哪些?

  • 一、RocketMQ巡检
    • 1、检查 broker 写入耗时是否有压力
    • 2、检查 broker busy 的数量与频率
    • 3、主题发送TPS、发送错误率巡检
    • 4、从节点消费情况检查
    • 5、集群各broker消息流转情况巡检
  • 二、Kafka巡检
    • 1、检查是否有分区发生 ISR频繁扩张收缩
    • 2、检查分区 leader 选举值是否处于正常水平
    • 3、检查controller是否频繁选举
    • 4、检查是否有客户端频繁断开连接
    • 5、消费组是否出现频繁重平衡现象

一、RocketMQ巡检

1、检查 broker 写入耗时是否有压力

输入内容

grep 'PAGECACHERT' store.log 

输出结果:

2020-07-06 19:53:48 INFO StoreStatsService - [PAGECACHERT] TotalPut 13857, PutMessageDistributeTime [<=0ms]:13717 [0~10ms]:140 [10~50ms]:0 [50~100ms]:0 [100~200ms]:0 [200~500ms]:0 [500ms~1s]:0 [1~2s]:0 [2~3s]:0 [3~4s]:0 [4~5s]:0 [5~10s]:0 [10s~]:0 

该命令能统计出写入耗时不同的消息数,查看写入pagecache时延,一般写入200~500ms的消息较多则集群压力较大,存在超过500ms的消息则集群消息写入压力很大了需要扩容。

2、检查 broker busy 的数量与频率

grep 'broker busy' /home/logs/rocketmqlogs/rocketmq_client.log 

如果频繁发生broker busy则集群压力较大,需要进行扩容。

3、主题发送TPS、发送错误率巡检

首先检查集群客户端是否出现发送超时,若存在发送超时再检查是否大面积客户端存在发送超时,弱不存在说明集群正常,可以尝试判断客户端是否垃圾回收等。否则,集群应该会出现broker busy

你可能感兴趣的:(消息中间件运维笔记,RocketMQ,kafka,中间件,巡检,运维)