生产故障排查记录:Redis 中间件疑难错误排查与修复

欢迎关注我的公众号「DevOps和k8s全栈技术」,进公众号【服务】栏,可以看到技术群,点击即可加入学习交流群。↓↓↓

一、问题描述

某生产环境中,Redis 集群出现间歇性超时(timeout)和高延迟,部分应用侧出现 READONLY You can't write against a read-only replica 错误。

二、问题分析

1. 错误现象

    1)应用层报错:

Timeout waiting for connection
READONLY You can't write against a read-only replica

‍2)Redis 集群监控显示

主节点 CPU 使用率接近 100%。
节点间通信出现延迟波动。
慢查询日志中存在大量命令。

2. 初步怀疑原因

网络抖动导致主从切换(failover),部分请求发送到了只读节点。
客户端连接池配置不当或连接耗尽。
应用层滥用高耗时命令(如 keys、hgetall 等)。
节点内存不

你可能感兴趣的:(redis,中间件,php,数据库,缓存)