监控
技术栈
| 组件 | 用途 | 访问 | |------|------|------| | Prometheus | 指标收集 | prometheus.yldm.tech | | Grafana | 可视化面板 | grafana.yldm.tech | | Loki | 日志聚合 | (Grafana 内) | | Tempo | 分布式追踪 | tempo.yldm.tech | | AlertManager | 告警路由 | alertmanager.yldm.tech |
OpenTelemetry
OpenClaw Gateway 通过 diagnostics-otel 插件导出 traces + metrics + logs。
- OTLP Endpoint: https://otlp.yldm.tech (→ Tempo:4318 via K8s Ingress)
- 数据流:OpenClaw → OTLP → Tempo → Grafana
巡检 Cron
service-monitor (每 30 分钟)
检查项:
- Mac mini 本地服务 (Gateway, Node Host, Cloudflare Tunnel)
- NAS 健康 (df, Docker, Plex)
- K8s 节点状态 + 异常 Pod
- OCI 服务器可达性
- Cloudflare Tunnel 健康
异常时发送 Telegram 告警。
web-monitor-check (每 6 小时)
13 个目标网页可用性检查:
| 类别 | 目标 | |------|------| | NAS | DSM WebUI, NAS Tunnel | | K8s | PVE, ArgoCD, Grafana, Vault, Prometheus | | K8s (API) | api.yldm.ai/health | | OCI | Portainer, n8n, Uptime |
security-healthcheck (周六 10:00)
Mac + NAS + K8s + Cloudflare 安全扫描,包括:
- SSH 配置审计
- 防火墙规则
- 证书有效期
- 未授权端口
- 系统更新状态
Tmux 监控面板
通过 tmux session 实时监控:
monitor:0.0— 异常 Pod + Warning Events (30s 刷新)monitor:0.1— ArgoCD 非健康 app + Node 资源 (60s 刷新)
详见 脚本 页面。
Grafana 访问
外部访问被 Cloudflare Access 拦截,需通过 kubectl port-forward 或 API:
kubectl --context k3s-pve port-forward svc/grafana 3000:80 -n monitoring
API Token: glsa_BBLYhaRT7mGQJPMh0WaqhayR7RqVEpU1_7cdd16ab