Pushgateway 作为 Prometheus 生态中的一个重要组件,主要用于临时和批处理作业的指标推送。然而,Pushgateway 默认不会自动清理过期指标数据,这可能导致指标堆积、内存占用过高甚至服务崩溃。以下是 Pushgateway 数据自动清理的完整解决方案。
Pushgateway 设计上不会自动删除推送给它的任何指标数据,这带来几个主要问题:
一个社区维护的Pushgateway分支版本支持TTL(Time-To-Live)功能:
docker run -d -p 9091:9091 dmathai/prom-pushgateway-ttl:latest --metric.timetolive=60s
参数说明:
--metric.timetolive
:设置指标的存活时间(如60s),超过此时间的指标会自动删除优点:实现简单,无需额外维护
缺点:非官方版本,可能存在兼容性问题
以下脚本可删除超过指定时间(如60秒)未更新的指标:
#!/bin/bash
baseurl=localhost:9091
for uri in $(curl -sS $baseurl/api/v1/metrics | jq -r '
.data[].push_time_seconds.metrics[0] |
select((now - (.value | tonumber)) > 60) |
(.labels as $labels | ["job", "instance"] | map(.+"/"+$labels[.]) | join("/"))
'); do
curl -XDELETE $baseurl/metrics/$uri
done
部署步骤:
jq
和curl
工具/opt/scripts/pushgateway_clean.sh
chmod +x /opt/scripts/pushgateway_clean.sh
*/1 * * * * /bin/bash /opt/scripts/pushgateway_clean.sh >/dev/null 2>&1
注意事项:
job
和instance
标签# prometheus.yml 中添加
rule_files:
- 'pushgateway_rules.yml'
# pushgateway_rules.yml 内容
groups:
- name: pushgateway_cleanup
rules:
- record: pushgateway:stale_metrics
expr: time() - push_time_seconds > 60
#!/bin/bash
STALE_METRICS=$(curl -s 'http://prometheus:9090/api/v1/query?query=pushgateway:stale_metrics' | jq -r '.data.result[].metric.job')
for JOB in $STALE_METRICS; do
curl -X DELETE "http://pushgateway:9091/metrics/job/$JOB"
done
合理设置指标生命周期:
标签设计规范:
监控Pushgateway自身:
pushgateway_http_requests_total
了解API调用情况pushgateway_metrics_count
了解指标数量变化持久化配置:
如果需要保留某些关键指标,可以启用持久化:
docker run -d -p 9091:9091 -v /data:/data prom/pushgateway --persistence.file=/data/pushgateway.data
验证自动清理效果:
pushgateway_metrics_count
指标日志监控:
定期审查:
通过实施以上SOP,可以有效管理Pushgateway中的指标数据,避免因数据堆积导致的问题,同时确保监控系统的稳定运行。
#!/bin/bash
# cleanup_old_metrics.sh
PUSHGATEWAY="http://pushgateway.address:9091"
RETENTION_HOURS=24 # 保留24小时内的数据
# 获取当前时间戳
CURRENT_TS=$(date +%s)
# 获取所有指标组
METRIC_GROUPS=$(curl -s "${PUSHGATEWAY}/api/v1/metrics" | jq -r '.data[].pushTimeUnixSeconds')
# 遍历并清理过期数据
for group in $METRIC_GROUPS; do
PUSH_TIME=$(echo $group | jq -r '.pushTimeUnixSeconds')
AGE_HOURS=$(( (CURRENT_TS - PUSH_TIME) / 3600 ))
if [ $AGE_HOURS -gt $RETENTION_HOURS ]; then
JOB_NAME=$(echo $group | jq -r '.labels.job')
INSTANCE=$(echo $group | jq -r '.labels.instance')
echo "Deleting ${JOB_NAME}/${INSTANCE} (age: ${AGE_HOURS}h)"
curl -X DELETE "${PUSHGATEWAY}/metrics/job/${JOB_NAME}/instance/${INSTANCE}"
fi
done
设置定时任务:
# 每天凌晨1点执行清理
0 1 * * * /path/to/cleanup_old_metrics.sh
--persistence.file
和 --persistence.interval
参数启动 Pushgateway 时添加:
./pushgateway \
--persistence.file=/tmp/pushgateway \
--persistence.interval=5m \
--web.enable-admin-api
这样 Pushgateway 会定期将内存中的数据持久化到文件,并在启动时恢复。
#!/bin/bash
# job_script.sh
JOB_NAME="my_batch_job"
INSTANCE=$(hostname)
PUSHGATEWAY="http://pushgateway.address:9091"
# 注册退出时清理的钩子
function cleanup {
echo "Cleaning up Pushgateway metrics..."
curl -X DELETE "${PUSHGATEWAY}/metrics/job/${JOB_NAME}/instance/${INSTANCE}"
}
trap cleanup EXIT
# 推送指标
echo "job_status{state=\"running\"} 1" | curl --data-binary @- "${PUSHGATEWAY}/metrics/job/${JOB_NAME}/instance/${INSTANCE}"
# 执行实际任务
your_actual_task_here
# 更新最终状态
echo "job_status{state=\"finished\"} 1" | curl --data-binary @- "${PUSHGATEWAY}/metrics/job/${JOB_NAME}/instance/${INSTANCE}"
apiVersion: batch/v1
kind: Job
metadata:
name: example-job
spec:
template:
spec:
containers:
- name: main
image: your-image
command: ["/bin/sh", "-c"]
args:
- |
# 推送指标
echo "job_running 1" | curl --data-binary @- http://pushgateway/metrics/job/example-job/instance/${HOSTNAME}
# 执行任务
your-task-here
# 退出前清理
curl -X DELETE http://pushgateway/metrics/job/example-job/instance/${HOSTNAME}
restartPolicy: Never
启动 Pushgateway 时添加 --web.enable-admin-api
参数,然后可以使用:
# 清理所有指标
curl -X PUT "${PUSHGATEWAY}/api/v1/admin/wipe"
在 Prometheus 配置中添加记录规则:
rule_files:
- 'pushgateway_rules.yml'
pushgateway_rules.yml 内容:
groups:
- name: pushgateway_cleanup
rules:
- record: pushgateway_metric_expired
expr: |
time() - pushgateway_metric_push_time > 86400 # 24小时过期
unless ON(job, instance) pushgateway_metric_value
然后可以基于此规则触发清理操作
分层清理策略:
监控清理过程:
# 监控Pushgateway指标组数量
curl -s "${PUSHGATEWAY}/metrics" | grep 'pushgateway_metrics_entries'
避免清理风暴:
日志记录:
通过以上方案,可以实现Pushgateway数据的自动化生命周期管理,避免无用数据积累。