监控

技术栈

| 组件 | 用途 | 访问 | |------|------|------| | Prometheus | 指标收集 | prometheus.yldm.tech | | Grafana | 可视化面板 | grafana.yldm.tech | | Loki | 日志聚合 | (Grafana 内) | | Tempo | 分布式追踪 | tempo.yldm.tech | | AlertManager | 告警路由 | alertmanager.yldm.tech |

OpenTelemetry

OpenClaw Gateway 通过 diagnostics-otel 插件导出 traces + metrics + logs。

  • OTLP Endpoint: https://otlp.yldm.tech (→ Tempo:4318 via K8s Ingress)
  • 数据流:OpenClaw → OTLP → Tempo → Grafana

巡检 Cron

service-monitor (每 30 分钟)

检查项:

  • Mac mini 本地服务 (Gateway, Node Host, Cloudflare Tunnel)
  • NAS 健康 (df, Docker, Plex)
  • K8s 节点状态 + 异常 Pod
  • OCI 服务器可达性
  • Cloudflare Tunnel 健康

异常时发送 Telegram 告警。

web-monitor-check (每 6 小时)

13 个目标网页可用性检查:

| 类别 | 目标 | |------|------| | NAS | DSM WebUI, NAS Tunnel | | K8s | PVE, ArgoCD, Grafana, Vault, Prometheus | | K8s (API) | api.yldm.ai/health | | OCI | Portainer, n8n, Uptime |

security-healthcheck (周六 10:00)

Mac + NAS + K8s + Cloudflare 安全扫描,包括:

  • SSH 配置审计
  • 防火墙规则
  • 证书有效期
  • 未授权端口
  • 系统更新状态

Tmux 监控面板

通过 tmux session 实时监控:

  • monitor:0.0 — 异常 Pod + Warning Events (30s 刷新)
  • monitor:0.1 — ArgoCD 非健康 app + Node 资源 (60s 刷新)

详见 脚本 页面。

Grafana 访问

外部访问被 Cloudflare Access 拦截,需通过 kubectl port-forward 或 API:

kubectl --context k3s-pve port-forward svc/grafana 3000:80 -n monitoring

API Token: glsa_BBLYhaRT7mGQJPMh0WaqhayR7RqVEpU1_7cdd16ab