目录标题
- 分类
-
- ✅ 一、分类总览表
- ✅ 二、详细分类说明
-
- 1. 关系型数据库(RDBMS)
- 2. NoSQL 数据库
- 3. 分布式系统协调组件
- 4. 消息队列系统
- ✅ 三、按用途分类(实战参考)
- ✅ 四、开源 vs 商业(闭源)分类
- 全面的监控指标分类与告警模板清单
-
- ✅ 一、通用结构
- ✅ 二、数据库系统级别详细监控项与告警模板
-
- 1. MySQL / TiDB / OceanBase
- 2. PostgreSQL / openGauss / GaussDB/ KingBase / Vastbase
- 3. Oracle / 达梦
- 4. SQL Server
- 5. MongoDB
- 6. Redis
- ✅ 三、其他系统(ClickHouse、ElasticSearch、Kafka 等)
-
- ClickHouse
- ElasticSearch
- Kafka / RocketMQ / RabbitMQ
- 数据库与消息队列服务的服务治理组件搭配建议
-
- ✅ 一、服务治理目标全景图
- ✅ 二、数据库服务治理搭配建议(按类型分类)
-
- 1. 关系型数据库(MySQL/PostgreSQL/Oracle/DM)
- 2. 分布式数据库(TiDB、GaussDB、openGauss、OceanBase)
- 3. NoSQL 数据库(Redis、MongoDB)
- 4. Kafka / RocketMQ / RabbitMQ
- 5. 搜索/分析系统(ElasticSearch、ClickHouse)
- ✅ 三、服务网格与治理整合建议
-
- ✅ Istio + Prometheus + Grafana + Loki + Alertmanager 统一治理平台:
- ✅ 四、总结搭配建议表格
分类
你提供的是一组数据库与消息队列系统,下面我将对它们进行分类整理,按照系统类型、使用场景、架构特点、是否开源等维度,帮你建立一套清晰的知识体系结构。
✅ 一、分类总览表
类型 |
子类型 |
名称 |
关系型数据库(RDBMS) |
商业数据库 |
Oracle、SQL Server、达梦(DM)、KingBase、Vastbase |
|
开源兼容型数据库 |
MySQL、PostgreSQL、openGauss、GaussDB、TiDB、OceanBase |
NoSQL 数据库 |
键值型(KV) |
Redis |
|
文档型 |
MongoDB |
|
列存分析型 |
ClickHouse、ElasticSearch(近似列存+倒排) |
分布式系统组件 |
协调服务 |
Zookeeper |
消息队列系统 |
流式消息 |
Kafka、RocketMQ |
|
消息中间件/事务队列 |
RabbitMQ |
✅ 二、详细分类说明
1. 关系型数据库(RDBMS)
名称 |
商业/开源 |
架构/特性 |
主流应用 |
Oracle |
商业 |
强事务、高安全、多租户、PL/SQL |
金融、能源、政府 |
SQL Server |
商业 |
微软产品链集成、报表强、适用于 .NET |
政企、制造 |
MySQL |
开源 |
主从复制、轻量、生态完善 |
电商、SaaS |
PostgreSQL |
开源 |
标准兼容性强、扩展性好(插件丰富) |
教育、GIS、开源替代 |
达梦 DM |
商业国产 |
类 Oracle、适配国产芯片 |
政府、国企 |
KingBase |
商业国产 |
PostgreSQL 内核,国产增强 |
金融、政务 |
Vastbase |
商业国产 |
PostgreSQL 内核,兼容Oracle语法 |
通信、能源 |
GaussDB |
商业国产 |
华为产品线,支持AI+HTAP |
金融、运营商 |
OceanBase |
商业/社区 |
支持分布式事务、高可用 |
支付宝、金融、电商 |
TiDB |
开源 |
OLTP+OLAP混合,支持水平扩展 |
金融、电商、IoT |
openGauss |
开源国产 |
PostgreSQL 衍生,华为开源 |
云服务、自主研发 |
2. NoSQL 数据库
类型 |
名称 |
数据模型 |
特点与应用 |
键值型 |
Redis |
Key-Value |
高速缓存、排行榜、队列、Session |
文档型 |
MongoDB |
JSON 文档 |
弱事务、高扩展、适合灵活数据结构 |
列存分析 |
ClickHouse |
列式存储 |
高性能分析型数据库,OLAP 场景 |
搜索分析 |
ElasticSearch |
文档+倒排索引 |
搜索引擎、日志、分析、向量检索 |
3. 分布式系统协调组件
名称 |
作用 |
应用场景 |
Zookeeper |
分布式协调服务,节点注册、分布式锁 |
Kafka、HBase、分布式系统协调 |
4. 消息队列系统
类别 |
名称 |
模型/协议 |
特点与适用场景 |
流式队列 |
Kafka |
发布-订阅 |
高吞吐、分区、分布式日志,适合日志、流计算 |
流式队列 |
RocketMQ |
发布-订阅 |
支持事务消息,适合金融、业务系统 |
消息中间件 |
RabbitMQ |
AMQP |
支持事务、确认机制强、适合企业级消息传递 |
✅ 三、按用途分类(实战参考)
用途 |
推荐系统 |
数据库高并发写入 |
MySQL、PostgreSQL、TiDB、MongoDB、ClickHouse |
分布式大数据存储 |
OceanBase、TiDB、GaussDB、MongoDB |
大数据分析(OLAP) |
ClickHouse、ElasticSearch、TiDB、GaussDB |
缓存/Session管理 |
Redis |
向量/日志搜索 |
ElasticSearch(可嵌入向量检索) |
消息投递与解耦 |
Kafka、RabbitMQ、RocketMQ |
企业国产化替代 |
达梦、KingBase、openGauss、Vastbase、GaussDB |
✅ 四、开源 vs 商业(闭源)分类
类别 |
数据库/组件 |
✅ 开源 |
MySQL、PostgreSQL、TiDB、ClickHouse、openGauss、MongoDB、Redis、Zookeeper、Kafka、RabbitMQ、RocketMQ |
✅ 商业 |
Oracle、SQL Server、达梦、KingBase、Vastbase、GaussDB、OceanBase(商业版) |
如你还需要 每类数据库的监控项划分/告警模板、服务治理组件搭配建议 等,我也可以补全。
全面的监控指标分类与告警模板清单
以下是针对你提供的各类数据库系统,整理的一份全面的监控指标分类与告警模板清单,可直接用于运维平台的建设、接入 Prometheus/Grafana、Zabbix 等系统。
✅ 一、通用结构
分类 |
示例监控指标 |
告警触发条件(示例) |
实例可用性 |
进程存活、端口监听、连接数 |
无法连接、连接数飙升 |
性能资源 |
CPU、内存、磁盘IO、TPS、QPS |
超阈值、增长速率异常 |
查询/事务状态 |
慢SQL数量、锁等待、回滚次数 |
长事务、死锁、慢查询累计超10条 |
存储容量 |
数据文件大小、剩余磁盘空间、表空间利用率 |
空间剩余<10%、表空间扩展失败 |
复制/主备状态 |
延迟、同步状态、复制位点偏差 |
主备延迟超100s、复制中断 |
安全与登录 |
失败登录、IP封禁、权限异常 |
多次失败登录、异常主机访问 |
✅ 二、数据库系统级别详细监控项与告警模板
1. MySQL / TiDB / OceanBase
监控类别 |
关键指标 |
告警规则(示例) |
实例状态 |
mysql_up , uptime , threads_connected |
mysql_up == 0 ;连接数 > 阈值 |
慢查询 |
slow_queries_total , slow_queries/sec |
每5分钟 > 100条 |
InnoDB状态 |
innodb_buffer_pool_hit_ratio |
< 90% |
事务 |
innodb_row_lock_time_avg , 死锁计数 |
平均锁等待>1s,死锁次数>0 |
主从复制 |
replica_delay_seconds , seconds_behind_master |
延迟>30s,或Slave状态 != running |
存储 |
table_size , free_space , ibdata1 |
剩余空间<10GB,ibdata1增长异常 |
2. PostgreSQL / openGauss / GaussDB/ KingBase / Vastbase
类别 |
指标 |
告警模板(示例) |
会话连接 |
pg_stat_activity count , 空闲/活跃比例 |
活跃连接数 > 阈值 |
锁冲突 |
pg_locks , deadlocks |
死锁次数 > 0,等待锁 > 10个 |
WAL日志 |
wal_lsn_diff , replication_lag |
主备同步延迟超过 50MB |
Checkpoint |
checkpoint_write_time , checkpoint_timeout |
写入时间 > 30s |
内存使用 |
shared_buffers_usage , work_mem |
缓冲区命中率低于90% |
3. Oracle / 达梦
监控维度 |
监控指标示例 |
告警模板 |
实例状态 |
v$instance.status , listener |
instance status ≠ OPEN |
会话与连接 |
v$session 活跃会话、等待事件 |
活跃连接数 > 配额,异常等待 > 5s |
I/O 性能 |
v$sysstat 、v$filestat |
每秒逻辑读 > 1W,I/O等待平均时间 > 20ms |
存储空间 |
表空间剩余率、数据文件增长 |
表空间剩余 < 10% 或无法自动扩展 |
审计安全 |
登录失败次数、DDL操作次数、权限变更 |
登录失败 > 10 次/分钟,敏感对象变更记录 |
4. SQL Server
监控项 |
指标或性能计数器 |
告警条件示例 |
CPU使用率 |
Process(sqlservr)\% Processor Time |
> 80% 持续 5 分钟 |
IO等待 |
Avg. Disk sec/Read , Write |
> 10ms |
死锁检测 |
Number of Deadlocks/sec |
> 0 |
TempDB使用 |
tempdb增长、Version Store使用率 |
使用率 > 80% |
作业失败 |
SQL Agent Job 状态 |
job 失败次数 > 3 次/小时 |
5. MongoDB
类别 |
指标 |
告警示例 |
连接数 |
connections{state="active"} |
活跃连接 > 阈值 |
Oplog 延迟 |
mongodb_mongod_replset_oplog_delay |
主从延迟 > 30 秒 |
内存使用 |
mongodb_mem_resident , 缓存命中率 |
命中率 < 85% |
队列堆积 |
queued_reads , queued_writes |
队列堆积持续超过 10s |
索引使用率 |
index_miss_ratio , index_hit_ratio |
miss ratio > 10% |
6. Redis
类型 |
指标 |
告警模板 |
内存 |
used_memory , maxmemory , evicted_keys |
使用率 > 90%、持续发生淘汰 |
客户端连接 |
connected_clients , blocked_clients |
超过阈值或存在阻塞 |
命中率 |
keyspace_hits , keyspace_misses |
命中率 < 85% |
持久化 |
rdb_last_bgsave_status , aof_pending |
持久化失败或AOF重写未完成 |
哨兵/集群 |
sentinel_masters , cluster_state |
集群状态不为 ok,主节点数量异常 |
✅ 三、其他系统(ClickHouse、ElasticSearch、Kafka 等)
ClickHouse
类别 |
指标 |
告警模板 |
查询性能 |
query_duration_ms |
平均执行时间 > 2000ms |
存储 |
DiskUsed , PartCount |
某分区文件数 > 2000,磁盘剩余 <10% |
ElasticSearch
类别 |
指标 |
告警模板 |
索引状态 |
index_status=red/yellow |
red 或 yellow 状态持续 5 分钟 |
查询慢 |
search_query_time_avg |
平均查询时长 > 1000ms |
JVM GC |
jvm_gc_old_time |
GC 频繁或耗时高 |
Kafka / RocketMQ / RabbitMQ
指标类别 |
关键指标 |
告警条件 |
消息堆积 |
lag , queue_size , backlog |
堆积 > 10000 条持续 5 分钟 |
生产/消费 |
msg_in/sec , msg_out/sec , error_rate |
消费速率远小于生产速率,或消费失败率 > 1% |
Broker状态 |
broker_up , leader_skew , partition_unavailable |
Broker 宕机,分区不可用 |
如你希望,我可以为这些数据库生成一份 YAML 告警规则模板(Prometheus Alert Rule 格式) 或 Zabbix 模板结构,用于自动化部署与运维。是否需要我进一步输出这些告警模板的格式化内容?(例如 Prometheus Alertmanager 格式 + Grafana Panel)
数据库与消息队列服务的服务治理组件搭配建议
下面是为你整理的一份数据库与消息队列服务的服务治理组件搭配建议,覆盖注册发现、配置中心、认证授权、流量控制、可观测性、服务熔断、审计与安全等关键治理维度。
✅ 一、服务治理目标全景图
目标维度 |
功能说明 |
推荐组件/中间件 |
注册发现 |
服务上线自动注册,变更可感知 |
Nacos、Consul、Zookeeper、Etcd |
配置中心 |
配置热更新、统一管理 |
Apollo、Nacos、Spring Cloud Config |
服务认证授权 |
鉴权、RBAC/Token/OAuth控制 |
Keycloak、Kong、OAuth2 Proxy |
流量控制 |
限流、熔断、重试 |
Sentinel、Envoy、Istio、Resilience4j |
可观测性 |
监控、日志、追踪、分析 |
Prometheus、Grafana、Jaeger、Loki |
熔断降级 |
避免雪崩,动态熔断控制 |
Sentinel、Hystrix、Istio |
审计与安全 |
审计日志、操作记录、安全接入 |
Auditd、OSSEC、Wazuh、sysaudit(Kingbase) |
网关路由 |
API 网关、路由策略 |
Kong、APISIX、Nginx、Istio Gateway |
灰度与发布 |
按标签/流量分配发布 |
Istio、Kubernetes + Argo Rollout |
✅ 二、数据库服务治理搭配建议(按类型分类)
1. 关系型数据库(MySQL/PostgreSQL/Oracle/DM)
治理维度 |
建议组件/做法 |
注册发现 |
用 Kubernetes StatefulSet,服务名即为域名注册 |
配置管理 |
配置项(连接池大小、密码等)统一放在 ConfigMap 或 Apollo |
接入认证 |
使用 DB 用户+角色权限,支持 LDAP 或统一认证(如 Oracle OID) |
审计安全 |
开启审计插件(如 pgAudit、Kingbase sysaudit) |
可观测性 |
使用 exporter(如 mysqld_exporter 、postgres_exporter ) |
服务限流 |
应用侧使用 Sentinel/Resilience4j 控制 DB 连接速率 |
故障切换 |
引入中间件如 ProxySQL、Patroni、Keepalived 实现主备切换 |
2. 分布式数据库(TiDB、GaussDB、openGauss、OceanBase)
治理需求 |
搭配建议 |
组件协调 |
使用内置 PD(TiDB)或 CM(GaussDB CM)进行调度 |
拓扑发现 |
结合 Etcd/Nacos 维护集群节点健康 |
可观测性 |
使用内置监控平台(如 TiDB Dashboard、openGauss gsqlmon) |
审计管理 |
通过策略下发+插件机制进行 SQL 审计记录 |
灾备切换 |
配合数据同步组件如 DM、OBSync,结合调度系统实现自动切流 |
3. NoSQL 数据库(Redis、MongoDB)
治理维度 |
搭配建议 |
动态发现 |
Redis Sentinel、MongoDB ReplSet 自动发现(或结合服务网格) |
配置管理 |
password、maxclients 等参数写入 ConfigMap 或 Apollo 热更新 |
流量控制 |
接入限流组件 Sentinel,或 Redis + Lua 实现接口限速 |
审计安全 |
自定义中间层记录访问日志,或在客户端引入审计 SDK |
高可用 |
Redis 使用 Sentinel 或 Cluster,Mongo 使用副本集 + arbiter |
可观测性 |
使用 redis_exporter 、mongodb_exporter + Grafana 展示 |
4. Kafka / RocketMQ / RabbitMQ
治理维度 |
搭配组件/方案 |
服务注册 |
Broker/NameServer/Coordinator 节点通过 Nacos 或 Etcd |
配置中心 |
使用 Apollo 配置 topic、ACL、消费者组 |
接入鉴权 |
SASL + ACL(Kafka)、AccessKey(RocketMQ) |
流控限速 |
使用 Gateway(Kong/Envoy)或 Sentinel 做 QPS/客户端限速 |
追踪监控 |
配合 Kafka Manager、RocketMQ Console、Prometheus |
日志采集 |
采集消费延迟、积压等指标推送至 Loki/ElasticSearch |
5. 搜索/分析系统(ElasticSearch、ClickHouse)
治理维度 |
搭配建议 |
安全接入 |
开启 X-Pack、HTTPS、用户名密码鉴权 |
配置中心 |
使用 ConfigMap + 版本控制,或通过 Graylog 管理索引策略 |
服务注册 |
节点动态注册写入 Nacos/Zookeeper |
审计管理 |
开启审计日志(X-Pack Audit)、写入 Wazuh/Splunk |
查询限流 |
配置搜索速率、慢查询日志,或在网关层限制 API 频率 |
可观测性 |
使用 exporter 或 Metricbeat、Grafana 展示索引状态 |
✅ 三、服务网格与治理整合建议
如需统一治理数据库与服务组件,建议使用:
✅ Istio + Prometheus + Grafana + Loki + Alertmanager 统一治理平台:
组件 |
用途 |
Istio |
服务注册、路由、熔断、限流 |
Prometheus |
数据采集 |
Grafana |
可视化 |
Loki |
日志聚合 |
Alertmanager |
告警通知 |
Kiali |
服务拓扑可视化 |
✅ 四、总结搭配建议表格
系统类型 |
注册发现 |
配置管理 |
鉴权审计 |
限流熔断 |
可观测性 |
MySQL/PG |
Kubernetes SRV |
Apollo |
DB权限 + 审计插件 |
Sentinel |
exporter + Grafana |
MongoDB |
ReplSet/Sentinel |
Nacos |
IP 白名单 + 用户鉴权 |
Lua限流 |
mongodb_exporter |
Redis |
Sentinel/Cluster |
Apollo |
ACL + TLS |
Sentinel |
redis_exporter |
Kafka |
自注册/ZK |
Apollo |
ACL + SASL |
网关+流控 |
kafka_exporter + Console |
ElasticSearch |
内建服务注册 |
Graylog |
X-Pack |
QPS 限流 |
ES exporter + Kibana |
如你需要,我可以进一步输出以下内容:
- ✅ Prometheus/Grafana 的接入配置模板
- ✅ 配置中心(如 Apollo)key-value 样例
- ✅ Sentinel 或 Istio 的流控/熔断规则配置
- ✅ 灰度发布策略或多租户隔离策略文档模板
是否需要我继续细化哪一部分?